自定义包装器实现

在本教程中,我们将描述如何实现您自己的自定义包装器。包装器是在模块化方式下为您的环境添加功能的好方法。这将节省您大量样板代码。

我们将展示如何通过以下方式创建包装器

在遵循本教程之前,请务必查看 gymnasium.wrappers 模块的文档。

继承自 gymnasium.ObservationWrapper

如果您想对环境返回的观察结果应用某些函数,则观察包装器非常有用。如果您实现了一个观察包装器,您只需通过实现 gymnasium.ObservationWrapper.observation() 方法来定义此转换。此外,您应该记住更新观察空间,如果转换更改了观察结果的形状(例如,通过将字典转换为 numpy 数组,如下例所示)。

假设您有一个 2D 导航任务,其中环境使用带有键 "agent_position""target_position" 的字典作为观察结果。常见的做法可能是丢弃某些自由度,只考虑目标相对于代理的位置,即 observation["target_position"] - observation["agent_position"]。为此,您可以实现类似于以下的观察包装器

import numpy as np
from gym import ActionWrapper, ObservationWrapper, RewardWrapper, Wrapper

import gymnasium as gym
from gymnasium.spaces import Box, Discrete


class RelativePosition(ObservationWrapper):
    def __init__(self, env):
        super().__init__(env)
        self.observation_space = Box(shape=(2,), low=-np.inf, high=np.inf)

    def observation(self, obs):
        return obs["target"] - obs["agent"]

继承自 gymnasium.ActionWrapper

动作包装器可用于在将动作应用于环境之前对动作进行转换。如果您实现了一个动作包装器,则需要通过实现 gymnasium.ActionWrapper.action() 来定义该转换。此外,您应该通过更新包装器的动作空间来指定该转换的域。

假设您有一个动作空间类型为 gymnasium.spaces.Box 的环境,但您只想使用有限的动作子集。那么,您可能想要实现以下包装器

class DiscreteActions(ActionWrapper):
    def __init__(self, env, disc_to_cont):
        super().__init__(env)
        self.disc_to_cont = disc_to_cont
        self.action_space = Discrete(len(disc_to_cont))

    def action(self, act):
        return self.disc_to_cont[act]


if __name__ == "__main__":
    env = gym.make("LunarLanderContinuous-v2")
    wrapped_env = DiscreteActions(
        env, [np.array([1, 0]), np.array([-1, 0]), np.array([0, 1]), np.array([0, -1])]
    )
    print(wrapped_env.action_space)  # Discrete(4)

继承自 gymnasium.RewardWrapper

奖励包装器用于转换环境返回的奖励。与前面的包装器一样,您需要通过实现 gymnasium.RewardWrapper.reward() 方法来指定该转换。

让我们来看一个例子:有时(尤其是在我们无法控制奖励因为它本质上是内在的时),我们希望将奖励剪辑到一个范围内以获得一定的数值稳定性。为此,例如,我们可以实现以下包装器

from typing import SupportsFloat


class ClipReward(RewardWrapper):
    def __init__(self, env, min_reward, max_reward):
        super().__init__(env)
        self.min_reward = min_reward
        self.max_reward = max_reward

    def reward(self, r: SupportsFloat) -> SupportsFloat:
        return np.clip(r, self.min_reward, self.max_reward)

继承自 gymnasium.Wrapper

有时您可能需要实现一个执行更复杂修改的包装器(例如,基于 info 中的数据修改奖励或更改渲染行为)。此类包装器可以通过继承 gymnasium.Wrapper 来实现。

如果您这样做,您可以通过访问属性 env 来访问传递到您的包装器的环境(该环境可能仍然包装在其他包装器中)。

让我们也来看一个这种情况的例子。大多数 MuJoCo 环境返回一个由不同项组成的奖励:例如,可能有一个奖励代理完成任务的项,以及一个惩罚大型动作(即能量消耗)的项。通常,您可以在环境初始化期间为这些项传递权重参数。但是,Reacher 不允许您这样做!尽管如此,奖励的所有单独项都在 info 中返回,因此让我们为 Reacher 构建一个包装器,它允许我们对这些项进行加权

class ReacherRewardWrapper(Wrapper):
    def __init__(self, env, reward_dist_weight, reward_ctrl_weight):
        super().__init__(env)
        self.reward_dist_weight = reward_dist_weight
        self.reward_ctrl_weight = reward_ctrl_weight

    def step(self, action):
        obs, _, terminated, truncated, info = self.env.step(action)
        reward = (
            self.reward_dist_weight * info["reward_dist"]
            + self.reward_ctrl_weight * info["reward_ctrl"]
        )
        return obs, reward, terminated, truncated, info