封装器列表

Gymnasium 提供了以下列出的许多常用封装器。有关特定封装器的更多信息,请参阅封装器类型页面

名称

描述

ArrayConversion

封装基于任何 Array API 兼容框架(例如 numpytorchjax.numpy)的环境,使其可以与任何其他 Array API 兼容框架交互。

AtariPreprocessing

实现 Atari 环境的常用预处理技术(不包括帧堆叠)。

Autoreset

当达到终止或截断状态时,被封装的环境会自动重置。

ClipAction

将传递给 stepaction 剪切到环境的 action_space 范围内。

ClipReward

将环境的奖励剪切到上限和下限之间。

DelayObservation

对从环境中返回的观测值添加延迟。

DtypeObservation

将观测数组的数据类型修改为指定的数据类型。

FilterObservation

通过一组键或索引过滤 Dict 或 Tuple 观测空间。

FlattenObservation

扁平化环境的观测空间以及来自 resetstep 函数的每个观测值。

FrameStackObservation

以滚动方式堆叠最后 N 个时间步的观测值。

GrayscaleObservation

将由 resetstep 计算的图像观测从 RGB 转换为灰度。

HumanRendering

允许支持“rgb_array”渲染的环境进行类人渲染。

JaxToNumpy

封装一个基于 Jax 的环境,使其可以与 NumPy 数组交互。

JaxToTorch

封装一个基于 Jax 的环境,使其可以与 PyTorch 张量交互。

MaxAndSkipObservation

跳过第 N 帧(观测)并返回最后两个观测之间的最大值。

NormalizeObservation

将观测值归一化,使其以均值为中心,具有单位方差。

NormalizeReward

归一化即时奖励,使其指数移动平均值具有固定方差。

NumpyToTorch

封装一个基于 NumPy 的环境,使其可以与 PyTorch 张量交互。

OrderEnforcing

如果在 reset 之前调用 steprender,将产生错误。

PassiveEnvChecker

一个被动环境检查器封装器,围绕 stepresetrender 函数进行检查,以确保它们遵循 Gymnasium 的 API。

RecordEpisodeStatistics

此封装器将跟踪累积奖励和剧集长度。

RecordVideo

使用环境的渲染功能录制环境剧集的视频。

RenderCollection

收集环境的渲染帧,使得 render 返回一个 list[RenderedFrame]

AddRenderObservation

将渲染的观测值包含在环境的观测值中。

RescaleAction

将环境的 Box 动作空间仿射(线性)缩放到 [min_action, max_action] 范围内。

RescaleObservation

将环境的 Box 观测空间仿射(线性)缩放到 [min_obs, max_obs] 范围内。

ReshapeObservation

将基于数组的观测值重塑为指定的形状。

ResizeObservation

使用 OpenCV 将图像观测值调整为指定的形状。

StickyAction

增加动作在同一 step 函数中重复的概率。

TimeAwareObservation

用剧集内的时间步数扩充观测值。

TimeLimit

通过在超过最大时间步数时截断环境来限制环境的步数。

TransformAction

在将修改后的值传递给环境 step 函数之前,对 action 应用一个函数。

TransformObservation

对从环境的 resetstep 接收到的 observation 应用一个函数,该函数将返回给用户。

TransformReward

对从环境的 step 接收到的 reward 应用一个函数。

仅限向量封装器

名称

描述

DictInfoToList

将向量化环境的信息从 dict 转换为 List[dict]

VectorizeTransformAction

为向量环境向量化单智能体转换动作封装器。

VectorizeTransformObservation

为向量环境向量化单智能体转换观测封装器。

VectorizeTransformReward

为向量环境向量化单智能体转换奖励封装器。