Walker2D¶

此环境属于 MuJoCo 环境，其中包含有关该环境的一般信息。


动作空间	`Box(-1.0, 1.0, (6,), float32)`
观测空间	`Box(-inf, inf, (17,), float64)`
导入	`gymnasium.make("Walker2d-v5")`

描述¶

此环境在 Hopper 环境的基础上增加了另一组腿，使机器人能够向前行走而不是跳跃。与其他 MuJoCo 环境一样，此环境旨在与经典控制环境相比，增加独立状态和控制变量的数量。Walker2D 是一个二维双足机器人，由七个主要身体部位组成：顶部的单个躯干（躯干下方分出两条腿），躯干中间的两条大腿，大腿下方的两条小腿，以及连接到小腿上的两只脚，整个身体都靠在这些脚上。目标是通过对连接七个身体部位的六个铰链施加扭矩，使其向前（右侧）行走。

动作空间¶

动作空间为 Box(-1, 1, (6,), float32)。一个动作表示施加在铰链关节上的扭矩。

编号	动作	控制最小值	控制最大值	名称（在对应 XML 文件中）	关节	类型（单位）
0	施加在大腿转子上的扭矩	-1	1	thigh_joint	铰链	扭矩 (N m)
1	施加在小腿转子上的扭矩	-1	1	leg_joint	铰链	扭矩 (N m)
2	施加在脚转子上的扭矩	-1	1	foot_joint	铰链	扭矩 (N m)
3	施加在左大腿转子上的扭矩	-1	1	thigh_left_joint	铰链	扭矩 (N m)
4	施加在左小腿转子上的扭矩	-1	1	leg_left_joint	铰链	扭矩 (N m)
5	施加在左脚转子上的扭矩	-1	1	foot_left_joint	铰链	扭矩 (N m)

观测空间¶

观测空间由以下部分组成（按顺序）

qpos（默认 8 个元素）：机器人身体部位的位置值。
qvel（9 个元素）：这些单个身体部位的速度（它们的导数）。

默认情况下，观测不包括机器人的 x 坐标 (rootx)。在构建时通过传递 exclude_current_positions_from_observation=False 可以包含此项。在这种情况下，观测空间将是 Box(-Inf, Inf, (18,), float64)，其中第一个观测元素是机器人的 x 坐标。无论 exclude_current_positions_from_observation 设置为 True 还是 False，x 坐标都会在 info 中以 "x_position" 和 "y_position" 为键返回。

然而，默认情况下，观测空间为 Box(-Inf, Inf, (17,), float64)，其中元素如下

编号	观测	最小值	最大值	名称（在对应 XML 文件中）	关节	类型（单位）
0	躯干的 z 坐标（Walker2D 的高度）	-Inf	Inf	rootz	滑动	位置 (m)
1	躯干的角度	-Inf	Inf	rooty	铰链	角度 (rad)
2	大腿关节的角度	-Inf	Inf	thigh_joint	铰链	角度 (rad)
3	小腿关节的角度	-Inf	Inf	leg_joint	铰链	角度 (rad)
4	脚关节的角度	-Inf	Inf	foot_joint	铰链	角度 (rad)
5	左大腿关节的角度	-Inf	Inf	thigh_left_joint	铰链	角度 (rad)
6	左小腿关节的角度	-Inf	Inf	leg_left_joint	铰链	角度 (rad)
7	左脚关节的角度	-Inf	Inf	foot_left_joint	铰链	角度 (rad)
8	躯干 x 坐标的速度	-Inf	Inf	rootx	滑动	速度 (m/s)
9	躯干 z 坐标（高度）的速度	-Inf	Inf	rootz	滑动	速度 (m/s)
10	躯干角度的角速度	-Inf	Inf	rooty	铰链	角速度 (rad/s)
11	大腿铰链的角速度	-Inf	Inf	thigh_joint	铰链	角速度 (rad/s)
12	小腿铰链的角速度	-Inf	Inf	leg_joint	铰链	角速度 (rad/s)
13	脚铰链的角速度	-Inf	Inf	foot_joint	铰链	角速度 (rad/s)
14	大腿铰链的角速度	-Inf	Inf	thigh_left_joint	铰链	角速度 (rad/s)
15	小腿铰链的角速度	-Inf	Inf	leg_left_joint	铰链	角速度 (rad/s)
16	脚铰链的角速度	-Inf	Inf	foot_left_joint	铰链	角速度 (rad/s)
已排除	躯干的 x 坐标	-Inf	Inf	rootx	滑动	位置 (m)

奖励¶

总奖励为：奖励 = 健康奖励 (healthy_reward) + 向前奖励 (forward_reward) - 控制成本 (ctrl_cost)。

健康奖励 (healthy_reward)：在 Walker2D 存活的每个时间步，它都会获得一个固定值 healthy_reward（默认为 \(1\)）的奖励，
向前奖励 (forward_reward)：向前移动的奖励，如果 Walker2D 向前（在正 \(x\) 方向 / 向右）移动，则此奖励为正。\(w_{forward} \times \frac{dx}{dt}\)，其中 \(dx\) 是（前方）“尖端”的位移（\(x_{after-action} - x_{before-action}\)），\(dt\) 是动作之间的时间，这取决于 frame_skip 参数（默认为 \(4\)），以及 frametime（为 \(0.002\)）——因此默认值为 \(dt = 4 \times 0.002 = 0.008\)，\(w_{forward}\) 是 forward_reward_weight（默认为 \(1\)）。
控制成本 (ctrl_cost)：惩罚 Walker2D 执行过大动作的负奖励。\(w_{control} \times \|action\|_2^2\)，其中 \(w_{control}\) 是 ctrl_cost_weight（默认为 \(10^{-3}\)）。

info 包含各个奖励项。

起始状态¶

初始位置状态为 \([0, 1.25, 0, 0, 0, 0, 0, 0, 0] + \mathcal{U}_{[-reset\_noise\_scale \times I_{9}, reset\_noise\_scale \times I_{9}]}\)。初始速度状态为 \(\mathcal{U}_{[-reset\_noise\_scale \times I_{9}, reset\_noise\_scale \times I_{9}]}\)。

其中 \(\mathcal{U}\) 是多元均匀连续分布。

请注意，z 坐标非零，以便 Walker2D 能够立即站立。

剧集结束¶

终止¶

如果 terminate_when_unhealthy 为 True（这是默认设置），则当 Walker2D 不健康时，环境终止。Walker2D 不健康的条件如下：

任何状态空间值不再有限
躯干的 z 坐标（高度）不在 healthy_z_range 参数给定的闭区间内（默认为 \([0.8, 1.0]\)）。
角度的绝对值（如果 exclude_current_positions_from_observation=False 则为 observation[1]，否则为 observation[2]）不在 healthy_angle_range 参数指定的闭区间内（默认为 \([-1, 1]\)）。

截断¶

剧集的默认持续时间为 1000 个时间步。

参数¶

Walker2D 提供了一系列参数来修改观测空间、奖励函数、初始状态和终止条件。这些参数可以在 gymnasium.make 期间按以下方式应用

import gymnasium as gym
env = gym.make('Walker2d-v5', ctrl_cost_weight=1e-3, ...)

参数	类型	默认值	描述
`xml_file`	str	`"walker2d_v5.xml"`	MuJoCo 模型路径
`forward_reward_weight`	float	`1`	向前奖励 (forward_reward) 项的权重（参见`奖励`部分）
`ctrl_cost_weight`	float	`1e-3`	控制成本 (ctrl_cost) 项的权重（参见`奖励`部分）
`healthy_reward`	float	`1`	健康奖励 (healthy_reward) 项的权重（参见`奖励`部分）
`terminate_when_unhealthy`	bool	`True`	如果为 True，则在不健康时发出 `terminated` 信号（参见`剧集结束`部分）
`healthy_z_range`	tuple	`(0.8, 2)`	Walker2D 躯干的 z 坐标必须在此范围内才能被视为健康（参见`剧集结束`部分）
`healthy_angle_range`	tuple	`(-1, 1)`	角度必须在此范围内才能被视为健康（参见`剧集结束`部分）
`reset_noise_scale`	float	`5e-3`	初始位置和速度随机扰动的范围（参见`起始状态`部分）
`exclude_current_positions_from_observation`	bool	`True`	是否从观测中省略 x 坐标。排除位置可以作为一种归纳偏置，以在策略中引入位置无关的行为（参见`观测空间`部分）

版本历史¶

v5
- 最低 mujoco 版本现在是 2.3.3。
- 增加了使用 xml_file 参数完全自定义/第三方 mujoco 模型的支持（以前只能对现有模型进行少量更改）。
- 增加了 default_camera_config 参数，这是一个用于设置 mj_camera 属性的字典，主要用于自定义环境。
- 增加了 env.observation_structure，这是一个用于指定观测空间组成（例如 qpos、qvel）的字典，有助于为 MuJoCo 环境构建工具和封装器。
- 使用 reset() 返回一个非空的 info，以前返回的是一个空字典，新键与 step() 的状态信息相同。
- 增加了 frame_skip 参数，用于配置 dt（step() 的持续时间），默认值因环境而异，请查阅环境文档页面。
- 在 v2、v3 和 v4 中，模型的两只脚具有不同的摩擦值（左脚摩擦力为 1.9，右脚摩擦力为 0.9）。Walker-v5 模型已更新为两只脚具有相同的摩擦力（设置为 1.9）。这导致 Walker2D 的右脚在表面上的滑动更少，因此需要更大的力才能移动（相关 GitHub 问题）。
- 修复了错误：healthy_reward 以前在每个步骤都给予（即使 Walker2D 不健康），现在仅在 Walker2D 健康时给予。info 中的“reward_survive”已随此更改而更新（相关 GitHub 问题）。
- 恢复了 xml_file 参数（在 v4 中已删除）。
- 在 info 中添加了各个奖励项（info["reward_forward"]、info["reward_ctrl"]、info["reward_survive"]）。
- 增加了 info["z_distance_from_origin"]，其等于“躯干”身体与其初始位置的垂直距离。
v4：所有 MuJoCo 环境现在都使用 mujoco >= 2.1.3 中的 MuJoCo 绑定
v3：支持 gymnasium.make 的 kwargs，例如 xml_file、ctrl_cost_weight、reset_noise_scale 等。RGB 渲染来自跟踪摄像头（因此智能体不会跑出屏幕）。已移至 gymnasium-robotics 仓库。
v2：所有连续控制环境现在都使用 mujoco-py >= 1.50。已移至 gymnasium-robotics 仓库。
v1：基于机器人的任务的最大时间步数提高到 1000。为环境添加了 reward_threshold。
v0：初始版本发布