Action Wrappers¶
基类¶
- class gymnasium.ActionWrapper(env: Env[ObsType, ActType])[source]¶
可以在
step()
之前修改动作的 wrappers 的超类。如果您想在将函数传递给基础环境之前将其应用于动作,您可以简单地从
ActionWrapper
继承并覆盖方法action()
来实现该转换。在该方法中定义的转换必须采用基础环境动作空间中的值。但是,其域可能与原始动作空间不同。在这种情况下,您需要在 wrapper 的__init__()
方法中设置action_space
来指定 wrapper 的新动作空间。除其他外,Gymnasium 提供了动作 wrappers
gymnasium.wrappers.ClipAction
和gymnasium.wrappers.RescaleAction
,用于裁剪和重新缩放动作。- 参数:
env – 要包装的环境。
可用的 Action Wrappers¶
- class gymnasium.wrappers.TransformAction(env: gym.Env[ObsType, ActType], func: Callable[[WrapperActType], ActType], action_space: Space[WrapperActType] | None)[source]¶
在将修改后的值传递给环境
step
函数之前,将函数应用于action
。wrapper 的向量版本存在
gymnasium.wrappers.vector.TransformAction
。示例
>>> import numpy as np >>> import gymnasium as gym >>> env = gym.make("MountainCarContinuous-v0") >>> _ = env.reset(seed=123) >>> obs, *_= env.step(np.array([0.0, 1.0])) >>> obs array([-4.6397772e-01, -4.4808415e-04], dtype=float32) >>> env = gym.make("MountainCarContinuous-v0") >>> env = TransformAction(env, lambda a: 0.5 * a + 0.1, env.action_space) >>> _ = env.reset(seed=123) >>> obs, *_= env.step(np.array([0.0, 1.0])) >>> obs array([-4.6382770e-01, -2.9808417e-04], dtype=float32)
- 更新日志
v1.0.0 - 首次添加
- 参数:
env – 要包装的环境
func – 应用于
step()
的action
的函数action_space – 给定函数,wrapper 更新后的动作空间。
- class gymnasium.wrappers.ClipAction(env: Env[ObsType, ActType])[source]¶
裁剪传递给
step
的action
,使其在环境的 action_space 范围内。wrapper 的向量版本存在
gymnasium.wrappers.vector.ClipAction
。示例
>>> import gymnasium as gym >>> from gymnasium.wrappers import ClipAction >>> import numpy as np >>> env = gym.make("Hopper-v4", disable_env_checker=True) >>> env = ClipAction(env) >>> env.action_space Box(-inf, inf, (3,), float32) >>> _ = env.reset(seed=42) >>> _ = env.step(np.array([5.0, -2.0, 0.0], dtype=np.float32)) ... # Executes the action np.array([1.0, -1.0, 0]) in the base environment
- 更新日志
v0.12.6 - 首次添加
v1.0.0 - 动作空间更新为无限边界,在技术上是正确的
- 参数:
env – 要包装的环境
- class gymnasium.wrappers.RescaleAction(env: gym.Env[ObsType, ActType], min_action: np.floating | np.integer | np.ndarray, max_action: np.floating | np.integer | np.ndarray)[source]¶
将环境的
Box
动作空间仿射 (线性) 重新缩放到[min_action, max_action]
的范围内。基础环境
env
必须具有spaces.Box
类型的动作空间。如果min_action
或max_action
是 numpy 数组,则形状必须与环境动作空间的形状匹配。wrapper 的向量版本存在
gymnasium.wrappers.vector.RescaleAction
。示例
>>> import gymnasium as gym >>> from gymnasium.wrappers import RescaleAction >>> import numpy as np >>> env = gym.make("Hopper-v4", disable_env_checker=True) >>> _ = env.reset(seed=42) >>> obs, _, _, _, _ = env.step(np.array([1, 1, 1], dtype=np.float32)) >>> _ = env.reset(seed=42) >>> min_action = -0.5 >>> max_action = np.array([0.0, 0.5, 0.75], dtype=np.float32) >>> wrapped_env = RescaleAction(env, min_action=min_action, max_action=max_action) >>> wrapped_env_obs, _, _, _, _ = wrapped_env.step(max_action) >>> np.all(obs == wrapped_env_obs) np.True_
- 更新日志
v0.15.4 - 首次添加
- 参数:
env (Env) – 要包装的环境
min_action (float, int 或 np.ndarray) – 每个动作的最小值。这可以是 numpy 数组或标量。
max_action (float, int 或 np.ndarray) – 每个动作的最大值。这可以是 numpy 数组或标量。
- class gymnasium.wrappers.StickyAction(env: gym.Env[ObsType, ActType], repeat_action_probability: float, repeat_action_duration: int | tuple[int, int] = 1)[source]¶
添加动作在同一个
step
函数中重复的概率。此 wrapper 遵循 Machado et al., 2018 在第 12 页第 5.2 节中提出的实现,并增加了将动作重复多个步骤的可能性。
wrapper 没有向量版本。
示例
>>> import gymnasium as gym >>> env = gym.make("CartPole-v1") >>> env = StickyAction(env, repeat_action_probability=0.9) >>> env.reset(seed=123) (array([ 0.01823519, -0.0446179 , -0.02796401, -0.03156282], dtype=float32), {}) >>> env.step(1) (array([ 0.01734283, 0.15089367, -0.02859527, -0.33293587], dtype=float32), 1.0, False, False, {}) >>> env.step(0) (array([ 0.0203607 , 0.34641072, -0.03525399, -0.6344974 ], dtype=float32), 1.0, False, False, {}) >>> env.step(1) (array([ 0.02728892, 0.5420062 , -0.04794393, -0.9380709 ], dtype=float32), 1.0, False, False, {}) >>> env.step(0) (array([ 0.03812904, 0.34756234, -0.06670535, -0.6608303 ], dtype=float32), 1.0, False, False, {})
- 更新日志
v1.0.0 - 首次添加
v1.1.0 - 添加 repeat_action_duration 参数以实现动态数量的粘性动作
- 参数:
env (Env) – 被包装的环境,
repeat_action_probability (int | float) – 重复旧动作的概率,
repeat_action_duration (int | tuple[int, int]) – 动作重复的步数。它可以是 int(用于确定性重复)或 tuple[int, int](用于随机数量的重复范围)。