奖励封装器¶

class gymnasium.RewardWrapper(env: Env[ObsType, ActType])[source]¶

封装器的超类，可以修改步骤返回的奖励。

如果您想在将基础环境返回的奖励传递给学习代码之前对其应用函数，您可以简单地继承 RewardWrapper 并重写 reward() 方法来实现该转换。

参数:: env – 要封装的环境。

reward(reward: SupportsFloat) → SupportsFloat[source]¶

返回一个修改后的环境 reward。

参数:: reward – env 的 step() 奖励
返回:: 修改后的 `reward`

已实现的封装器¶

class gymnasium.wrappers.TransformReward(env: Env[ObsType, ActType], func: Callable[[SupportsFloat], SupportsFloat])[source]¶

将一个函数应用于从环境的 step 接收到的 reward。

此封装器存在向量版本：gymnasium.wrappers.vector.TransformReward。

示例

>>> import gymnasium as gym
>>> from gymnasium.wrappers import TransformReward
>>> env = gym.make("CartPole-v1")
>>> env = TransformReward(env, lambda r: 2 * r + 1)
>>> _ = env.reset()
>>> _, rew, _, _, _ = env.step(0)
>>> rew
3.0

更新日志

v0.15.0 - 初次添加

参数:

env (Env) – 要封装的环境
func – (Callable)：要应用于奖励的函数

class gymnasium.wrappers.NormalizeReward(env: Env[ObsType, ActType], gamma: float = 0.99, epsilon: float = 1e-8)[source]¶

标准化即时奖励，使其指数移动平均值具有近似固定的方差。

属性 _update_running_mean 允许冻结/继续奖励统计信息的运行平均值计算。如果为 True (默认值)，则每次调用 self.normalize() 时，RunningMeanStd 都会更新。如果为 False，则使用已计算的统计信息但不再更新；这可以在评估期间使用。

此封装器存在向量版本：gymnasium.wrappers.vector.NormalizeReward。

注意

在 v0.27 中，NormalizeReward 已更新，因为 Gym v0.25+ 中前向折扣奖励估计的计算不正确。更多详情请阅读 [#3154](https://github.com/openai/gym/pull/3152)。

注意

缩放取决于过去的轨迹，如果封装器是新实例化的或策略最近已更改，则奖励将无法正确缩放。

不使用标准化奖励封装器的示例

>>> import numpy as np
>>> import gymnasium as gym
>>> env = gym.make("MountainCarContinuous-v0")
>>> _ = env.reset(seed=123)
>>> _ = env.action_space.seed(123)
>>> episode_rewards = []
>>> terminated, truncated = False, False
>>> while not (terminated or truncated):
...     observation, reward, terminated, truncated, info = env.step(env.action_space.sample())
...     episode_rewards.append(reward)
...
>>> env.close()
>>> np.var(episode_rewards)
np.float64(0.0008876301247721108)

使用标准化奖励封装器的示例

>>> import numpy as np
>>> import gymnasium as gym
>>> env = gym.make("MountainCarContinuous-v0")
>>> env = NormalizeReward(env, gamma=0.99, epsilon=1e-8)
>>> _ = env.reset(seed=123)
>>> _ = env.action_space.seed(123)
>>> episode_rewards = []
>>> terminated, truncated = False, False
>>> while not (terminated or truncated):
...     observation, reward, terminated, truncated, info = env.step(env.action_space.sample())
...     episode_rewards.append(reward)
...
>>> env.close()
>>> np.var(episode_rewards)
np.float64(0.010162116476634746)

更新日志

v0.21.0 - 初次添加
v1.0.0 - 添加 update_running_mean 属性以允许禁用运行平均值/标准差的更新

参数:

env (env) – 应用封装器的环境
epsilon (float) – 稳定性参数
gamma (float) – 指数移动平均中使用的折扣因子。

class gymnasium.wrappers.ClipReward(env: Env[ObsType, ActType], min_reward: float | ndarray | None = None, max_reward: float | ndarray | None = None)[source]¶

将环境的奖励裁剪到上限和下限之间。

此封装器存在向量版本：gymnasium.wrappers.vector.ClipReward。

示例

>>> import gymnasium as gym
>>> from gymnasium.wrappers import ClipReward
>>> env = gym.make("CartPole-v1")
>>> env = ClipReward(env, 0, 0.5)
>>> _ = env.reset()
>>> _, rew, _, _, _ = env.step(1)
>>> rew
np.float64(0.5)

更新日志

v1.0.0 - 初次添加

参数:

env (Env) – 要封装的环境
min_reward (Union[float, np.ndarray]) – 要应用的下限
max_reward (Union[float, np.ndarray]) – 要应用的上限