Wrapper 列表

Gymnasium 提供了许多常用的 wrappers,如下列表所示。更多信息可以在关于 wrapper 类型的页面上找到特定 wrapper 的信息

名称

描述

AtariPreprocessing

实现了 Atari 环境的常用预处理技术(不包括帧堆叠)。

Autoreset

当达到终止或截断状态时,包装的环境会自动重置。

ClipAction

将传递给 stepaction 裁剪到环境的 action_space 范围内。

ClipReward

将环境的奖励裁剪到上限和下限之间。

DelayObservation

为环境中返回的观测添加延迟。

DtypeObservation

将观测数组的数据类型修改为指定的类型。

FilterObservation

通过一组键或索引过滤 Dict 或 Tuple 观测空间。

FlattenObservation

展平环境的观测空间以及来自 resetstep 函数的每个观测。

FrameStackObservation

以滚动方式堆叠最后 N 个时间步的观测。

GrayscaleObservation

resetstep 计算的图像观测从 RGB 转换为灰度。

HumanRendering

允许为支持 “rgb_array” 渲染的环境进行类似人类的渲染。

JaxToNumpy

包装基于 Jax 的环境,使其可以与 NumPy 数组交互。

JaxToTorch

包装基于 Jax 的环境,使其可以与 PyTorch 张量交互。

MaxAndSkipObservation

跳过第 N 帧(观测),并返回最后两个观测之间的最大值。

NormalizeObservation

将观测标准化为以均值为中心,单位方差。

NormalizeReward

标准化即时奖励,使其指数移动平均值具有固定的方差。

NumpyToTorch

包装基于 NumPy 的环境,使其可以与 PyTorch 张量交互。

OrderEnforcing

如果在 reset 之前调用 steprender,将产生错误。

PassiveEnvChecker

一个被动的环境检查器 wrapper,它围绕 stepresetrender 函数,以检查它们是否遵循 gymnasium 的 API。

RecordEpisodeStatistics

此 wrapper 将跟踪累积奖励和 эпизод 长度。

RecordVideo

使用环境的渲染函数记录环境 эпизод 的视频。

RenderCollection

收集环境的渲染帧,例如 render 返回 list[RenderedFrame]

AddRenderObservation

将渲染的观测包含在环境的观测中。

RescaleAction

将环境的 Box 动作空间仿射(线性)重新缩放到 [min_action, max_action] 的范围内。

RescaleObservation

将环境的 Box 观测空间仿射(线性)重新缩放到 [min_obs, max_obs] 的范围内。

ReshapeObservation

将基于数组的观测重塑为指定的形状。

ResizeObservation

使用 OpenCV 将图像观测调整为指定的形状。

StickyAction

为相同的 step 函数添加动作重复的概率。

TimeAwareObservation

使用 эпизод 中经过的时间步数来增强观测。

TimeLimit

通过在超过最大时间步数时截断环境来限制环境的步数。

TransformAction

在将修改后的值传递给环境 step 函数之前,将函数应用于 action

TransformObservation

将函数应用于从环境的 resetstep 接收到的 observation,该观测将传递回用户。

TransformReward

将函数应用于从环境的 step 接收到的 reward

仅向量化 Wrappers

名称

描述

DictInfoToList

将向量化环境的信息从 dict 转换为 List[dict]

VectorizeTransformAction

为向量环境向量化单智能体转换动作 wrapper。

VectorizeTransformObservation

为向量环境向量化单智能体转换观测 wrapper。

VectorizeTransformReward

为向量环境向量化单智能体转换奖励 wrapper。