向量化¶

Gymnasium.vector.VectorEnv¶

class gymnasium.vector.VectorEnv[源代码]¶

用于并行运行同一环境的多个独立副本的向量化环境基类。

向量化环境通过同时对多个子环境进行采样，可以实现每秒步数的线性加速。Gymnasium 包含两种通用向量化环境：AsyncVectorEnv 和 SyncVectorEnv，以及若干自定义向量化环境实现。对于 reset() 和 step()，它们会批量处理每个子环境的观测、奖励、终止、截断和信息，详情请参见以下示例。对于奖励、终止和截断，数据被打包成形状为 (num_envs,) 的 NumPy 数组。对于观测（和动作），批处理过程取决于观测（和动作）空间的类型，通常针对神经网络的输入/输出进行优化。对于信息，数据以字典形式保存，其中一个键将提供所有子环境的数据。

为了创建环境，make_vec() 是与 make() 等效的向量环境函数，可以轻松创建包含多个独特参数的向量环境，以修改环境质量、环境数量、向量化器类型和向量化器参数。

为了避免在重置之前必须等待所有子环境终止，实现在回合结束时（terminated or truncated 为 True）可以自动重置子环境。这对于正确实现向量环境的训练算法至关重要。默认情况下，Gymnasium 的实现使用下一步自动重置，并以 AutoresetMode 枚举作为选项。向量环境使用的模式应在 metadata["autoreset_mode"] 中可用。警告：某些向量实现或训练算法仅支持特定的自动重置模式。欲了解更多信息，请阅读 https://farama.org/Vector-Autoreset-Mode。

注意

在 v0.25 之前，reset() 和 step() 的 info 参数最初是为每个子环境实现为一个字典列表。然而，在 v0.25+ 中，这被修改为每个键对应一个 NumPy 数组的字典。要使用旧的 info 格式，请使用 DictInfoToList 封装器。

示例

>>> import gymnasium as gym
>>> envs = gym.make_vec("CartPole-v1", num_envs=3, vectorization_mode="sync", wrappers=(gym.wrappers.TimeAwareObservation,))
>>> envs = gym.wrappers.vector.ClipReward(envs, min_reward=0.2, max_reward=0.8)
>>> envs
<ClipReward, SyncVectorEnv(CartPole-v1, num_envs=3)>
>>> envs.num_envs
3
>>> envs.action_space
MultiDiscrete([2 2 2])
>>> envs.observation_space
Box([[-4.80000019        -inf -0.41887903        -inf  0.        ]
 [-4.80000019        -inf -0.41887903        -inf  0.        ]
 [-4.80000019        -inf -0.41887903        -inf  0.        ]], [[4.80000019e+00            inf 4.18879032e-01            inf
  5.00000000e+02]
 [4.80000019e+00            inf 4.18879032e-01            inf
  5.00000000e+02]
 [4.80000019e+00            inf 4.18879032e-01            inf
  5.00000000e+02]], (3, 5), float64)
>>> observations, infos = envs.reset(seed=123)
>>> observations
array([[ 0.01823519, -0.0446179 , -0.02796401, -0.03156282,  0.        ],
       [ 0.02852531,  0.02858594,  0.0469136 ,  0.02480598,  0.        ],
       [ 0.03517495, -0.000635  , -0.01098382, -0.03203924,  0.        ]])
>>> infos
{}
>>> _ = envs.action_space.seed(123)
>>> actions = envs.action_space.sample()
>>> observations, rewards, terminations, truncations, infos = envs.step(actions)
>>> observations
array([[ 0.01734283,  0.15089367, -0.02859527, -0.33293587,  1.        ],
       [ 0.02909703, -0.16717631,  0.04740972,  0.3319138 ,  1.        ],
       [ 0.03516225, -0.19559774, -0.01162461,  0.25715804,  1.        ]])
>>> rewards
array([0.8, 0.8, 0.8])
>>> terminations
array([False, False, False])
>>> truncations
array([False, False, False])
>>> infos
{}
>>> envs.close()

向量环境具有以下附加属性，供用户理解其实现：

num_envs - 向量环境中的子环境数量
observation_space - 向量环境的批量观测空间
single_observation_space - 单个子环境的观测空间
action_space - 向量环境的批量动作空间
single_action_space - 单个子环境的动作空间

方法¶

VectorEnv.step(actions: ActType) → tuple[ObsType, ArrayType, ArrayType, ArrayType, dict[str, Any]][源代码]¶

对每个并行环境执行一个动作。

参数：: actions – 具有 action_space 形状的动作批次。
返回：: 批次 (观测, 奖励, 终止, 截断, 信息)

注意

由于向量环境会自动重置终止和截断的子环境，这将在terminated 或 truncated 为 True之后的下一步发生。

示例

>>> import gymnasium as gym
>>> import numpy as np
>>> envs = gym.make_vec("CartPole-v1", num_envs=3, vectorization_mode="sync")
>>> _ = envs.reset(seed=42)
>>> actions = np.array([1, 0, 1], dtype=np.int32)
>>> observations, rewards, terminations, truncations, infos = envs.step(actions)
>>> observations
array([[ 0.02727336,  0.18847767,  0.03625453, -0.26141977],
       [ 0.01431748, -0.24002443, -0.04731862,  0.3110827 ],
       [-0.03822722,  0.1710671 , -0.00848456, -0.2487226 ]],
      dtype=float32)
>>> rewards
array([1., 1., 1.])
>>> terminations
array([False, False, False])
>>> terminations
array([False, False, False])
>>> infos
{}

VectorEnv.reset(*, seed: int | None = None, options: dict[str, Any] | None = None) → tuple[ObsType, dict[str, Any]][源代码]¶

重置所有并行环境，并返回初始观测和信息批次。

参数：

seed – 环境重置的种子
options – 是否返回选项

返回：

来自向量化环境的观测和信息批次。

示例

>>> import gymnasium as gym
>>> envs = gym.make_vec("CartPole-v1", num_envs=3, vectorization_mode="sync")
>>> observations, infos = envs.reset(seed=42)
>>> observations
array([[ 0.0273956 , -0.00611216,  0.03585979,  0.0197368 ],
       [ 0.01522993, -0.04562247, -0.04799704,  0.03392126],
       [-0.03774345, -0.02418869, -0.00942293,  0.0469184 ]],
      dtype=float32)
>>> infos
{}

VectorEnv.render() → tuple[RenderFrame, ...] | None[源代码]¶

返回并行环境的渲染帧。

返回：: 一个包含并行环境渲染帧的元组

VectorEnv.close(**kwargs: Any)[源代码]¶

关闭所有并行环境并释放资源。

它还会关闭所有现有的图像查看器，然后调用 close_extras() 并将 closed 设置为 True。

警告

此函数本身不关闭环境，环境关闭应在 close_extras() 中处理。这对于同步和异步向量化环境都是通用的。

注意

这将在垃圾回收或程序退出时自动调用。

参数：: **kwargs – 传递给 close_extras() 的关键字参数

属性¶

VectorEnv.num_envs: int¶: 向量环境中的子环境数量。

VectorEnv.action_space: gym.Space¶: （批量）动作空间。step 的输入动作必须是 action_space 的有效元素。

VectorEnv.observation_space: gym.Space¶: （批量）观测空间。reset 和 step 返回的观测是 observation_space 的有效元素。

VectorEnv.single_action_space: gym.Space¶: 子环境的动作空间。

VectorEnv.single_observation_space: gym.Space¶: 子环境的观测空间。

VectorEnv.spec: EnvSpec | None = None¶: 环境的 EnvSpec，通常在 gymnasium.make_vec() 期间设置

VectorEnv.metadata: dict[str, Any] = {}¶: 环境的元数据，包含渲染模式、渲染帧率等

VectorEnv.render_mode: str | None = None¶: 环境的渲染模式，应遵循与 Env.render_mode 相似的规范。

VectorEnv.closed: bool = False¶: 向量环境是否已关闭。

附加方法¶

属性 VectorEnv.unwrapped¶: 返回基础环境。

属性 VectorEnv.np_random: Generator¶

返回环境的内部 _np_random，如果未设置，将使用随机种子初始化。

返回：: `np.random.Generator` 的实例

属性 VectorEnv.np_random_seed: int | None¶

返回环境的内部 _np_random_seed，如果未设置，将首先使用随机整数作为种子进行初始化。

如果 np_random_seed 是直接设置的，而不是通过 reset() 或 set_np_random_through_seed() 设置的，则种子值将为 -1。

返回：: int – 当前 np_random 的种子，如果 rng 的种子未知则为 -1

创建向量环境¶

为了创建向量环境，Gymnasium 提供了 gymnasium.make_vec() 作为与 gymnasium.make() 等效的函数。