仿人机器人¶

此环境是 Mujoco 环境的一部分，其中包含有关该环境的通用信息。


动作空间	`Box(-0.4, 0.4, (17,), float32)`
观测空间	`Box(-inf, inf, (348,), float64)`
导入	`gymnasium.make("Humanoid-v5")`

描述¶

此环境基于 Tassa、Erez 和 Todorov 在“通过在线轨迹优化合成和稳定复杂行为”中引入的环境。这个 3D 两足机器人旨在模拟人类。它有一个躯干（腹部），带有一对腿和手臂，以及一对连接臀部到膝盖的肌腱。每条腿由三个身体部位（大腿、小腿、脚）组成，手臂由两个身体部位（上臂、前臂）组成。环境的目标是尽可能快地向前行走而不摔倒。

动作空间¶

动作空间是 Box(-0.4, 0.4, (17,), float32)。一个动作代表施加在铰链关节上的扭矩。

编号	动作	控制最小值	控制最大值	名称（在相应的 XML 文件中）	关节	类型（单位）
0	施加在腹部 y 坐标铰链上的扭矩	-0.4	0.4	abdomen_y	铰链	扭矩 (N m)
1	施加在腹部 z 坐标铰链上的扭矩	-0.4	0.4	abdomen_z	铰链	扭矩 (N m)
2	施加在腹部 x 坐标铰链上的扭矩	-0.4	0.4	abdomen_x	铰链	扭矩 (N m)
3	施加在躯干/腹部与右髋之间的转子上的扭矩（x 坐标）	-0.4	0.4	right_hip_x (right_thigh)	铰链	扭矩 (N m)
4	施加在躯干/腹部与右髋之间的转子上的扭矩（z 坐标）	-0.4	0.4	right_hip_z (right_thigh)	铰链	扭矩 (N m)
5	施加在躯干/腹部与右髋之间的转子上的扭矩（y 坐标）	-0.4	0.4	right_hip_y (right_thigh)	铰链	扭矩 (N m)
6	施加在右髋/大腿与右小腿之间的转子上的扭矩	-0.4	0.4	right_knee	铰链	扭矩 (N m)
7	施加在躯干/腹部与左髋之间的转子上的扭矩（x 坐标）	-0.4	0.4	left_hip_x (left_thigh)	铰链	扭矩 (N m)
8	施加在躯干/腹部与左髋之间的转子上的扭矩（z 坐标）	-0.4	0.4	left_hip_z (left_thigh)	铰链	扭矩 (N m)
9	施加在躯干/腹部与左髋之间的转子上的扭矩（y 坐标）	-0.4	0.4	left_hip_y (left_thigh)	铰链	扭矩 (N m)
10	施加在左髋/大腿与左小腿之间的转子上的扭矩	-0.4	0.4	left_knee	铰链	扭矩 (N m)
11	施加在躯干与右上臂之间的转子上的扭矩（坐标 -1）	-0.4	0.4	right_shoulder1	铰链	扭矩 (N m)
12	施加在躯干与右上臂之间的转子上的扭矩（坐标 -2）	-0.4	0.4	right_shoulder2	铰链	扭矩 (N m)
13	施加在右上臂与右下臂之间的转子上的扭矩	-0.4	0.4	right_elbow	铰链	扭矩 (N m)
14	施加在躯干与左上臂之间的转子上的扭矩（坐标 -1）	-0.4	0.4	left_shoulder1	铰链	扭矩 (N m)
15	施加在躯干与左上臂之间的转子上的扭矩（坐标 -2）	-0.4	0.4	left_shoulder2	铰链	扭矩 (N m)
16	施加在左上臂与左下臂之间的转子上的扭矩	-0.4	0.4	left_elbow	铰链	扭矩 (N m)

观测空间¶

观测空间由以下部分组成（按顺序）

qpos（默认 22 个元素）： 机器人身体部位的位置值。
qvel（23 个元素）： 这些单个身体部位的速度（它们的导数）。
cinert（130 个元素）： 刚体部件相对于质心的质量和惯性（这是转换的中间结果）。它的形状是 13*10（nbody * 10）。(cinert - 惯性矩阵、身体质量偏移和身体质量)
cvel（78 个元素）： 基于质心的速度。它的形状是 13 * 6（nbody * 6）。(质心速度 - 速度 x, y, z 和角速度 x, y, z)
qfrc_actuator（17 个元素）： 每个关节处作为执行器力产生的约束力。其形状为 (17,) (nv * 1)。
cfrc_ext（78 个元素）： 这是作用在身体部位上的基于质心的外力。它的形状是 13 * 6（nbody * 6），因此在观测空间中增加了另外 78 个元素。(外力 - 力 x, y, z 和扭矩 x, y, z)

其中 nbody 是机器人中身体的数量，nv 是自由度的数量（= dim(qvel)）。

默认情况下，观测不包括躯干的 x 和 y 坐标。通过在构造时传入 exclude_current_positions_from_observation=False 可以将其包括在内。在这种情况下，观测空间将是 Box(-Inf, Inf, (350,), float64)，其中前两个观测是躯干的 x 和 y 坐标。无论 exclude_current_positions_from_observation 设置为 True 还是 False，x 和 y 坐标都将以键 "x_position" 和 "y_position" 分别在 info 中返回。

然而，默认情况下，观测空间是 Box(-Inf, Inf, (348,), float64)，其中位置和速度元素如下

编号	观测	最小值	最大值	名称（在相应的 XML 文件中）	关节	类型（单位）
0	躯干（中心）的 z 坐标	-Inf	Inf	根	自由	位置 (m)
1	躯干（中心）的 w 姿态	-Inf	Inf	根	自由	角度 (rad)
2	躯干（中心）的 x 姿态	-Inf	Inf	根	自由	角度 (rad)
3	躯干（中心）的 y 姿态	-Inf	Inf	根	自由	角度 (rad)
4	躯干（中心）的 z 姿态	-Inf	Inf	根	自由	角度 (rad)
5	腹部（在 lower_waist 中）的 z 角度	-Inf	Inf	abdomen_z	铰链	角度 (rad)
6	腹部（在 lower_waist 中）的 y 角度	-Inf	Inf	abdomen_y	铰链	角度 (rad)
7	腹部（在 pelvis 中）的 x 角度	-Inf	Inf	abdomen_x	铰链	角度 (rad)
8	骨盆与右髋之间角度的 x 坐标（在 right_thigh 中）	-Inf	Inf	right_hip_x	铰链	角度 (rad)
9	骨盆与右髋之间角度的 z 坐标（在 right_thigh 中）	-Inf	Inf	right_hip_z	铰链	角度 (rad)
10	骨盆与右髋之间角度的 y 坐标（在 right_thigh 中）	-Inf	Inf	right_hip_y	铰链	角度 (rad)
11	右髋与右小腿之间角度（在 right_knee 中）	-Inf	Inf	right_knee	铰链	角度 (rad)
12	骨盆与左髋之间角度的 x 坐标（在 left_thigh 中）	-Inf	Inf	left_hip_x	铰链	角度 (rad)
13	骨盆与左髋之间角度的 z 坐标（在 left_thigh 中）	-Inf	Inf	left_hip_z	铰链	角度 (rad)
14	骨盆与左髋之间角度的 y 坐标（在 left_thigh 中）	-Inf	Inf	left_hip_y	铰链	角度 (rad)
15	左髋与左小腿之间角度（在 left_knee 中）	-Inf	Inf	left_knee	铰链	角度 (rad)
16	躯干与右臂之间角度的坐标-1（多轴）（在 right_upper_arm 中）	-Inf	Inf	right_shoulder1	铰链	角度 (rad)
17	躯干与右臂之间角度的坐标-2（多轴）（在 right_upper_arm 中）	-Inf	Inf	right_shoulder2	铰链	角度 (rad)
18	右上臂与右下臂之间角度	-Inf	Inf	right_elbow	铰链	角度 (rad)
19	躯干与左臂之间角度的坐标-1（多轴）（在 left_upper_arm 中）	-Inf	Inf	left_shoulder1	铰链	角度 (rad)
20	躯干与左臂之间角度的坐标-2（多轴）（在 left_upper_arm 中）	-Inf	Inf	left_shoulder2	铰链	角度 (rad)
21	左上臂与左下臂之间角度	-Inf	Inf	left_elbow	铰链	角度 (rad)
22	躯干（中心）的 x 坐标速度	-Inf	Inf	根	自由	速度 (m/s)
23	躯干（中心）的 y 坐标速度	-Inf	Inf	根	自由	速度 (m/s)
24	躯干（中心）的 z 坐标速度	-Inf	Inf	根	自由	速度 (m/s)
25	躯干（中心）的 x 坐标角速度	-Inf	Inf	根	自由	角速度 (rad/s)
26	躯干（中心）的 y 坐标角速度	-Inf	Inf	根	自由	角速度 (rad/s)
27	躯干（中心）的 z 坐标角速度	-Inf	Inf	根	自由	角速度 (rad/s)
28	腹部（在 lower_waist 中）角速度的 z 坐标	-Inf	Inf	abdomen_z	铰链	角速度 (rad/s)
29	腹部（在 lower_waist 中）角速度的 y 坐标	-Inf	Inf	abdomen_y	铰链	角速度 (rad/s)
30	腹部（在 pelvis 中）角速度的 x 坐标	-Inf	Inf	abdomen_x	铰链	角速度 (rad/s)
31	骨盆与右髋之间角度角速度的 x 坐标（在 right_thigh 中）	-Inf	Inf	right_hip_x	铰链	角速度 (rad/s)
32	骨盆与右髋之间角度角速度的 z 坐标（在 right_thigh 中）	-Inf	Inf	right_hip_z	铰链	角速度 (rad/s)
33	骨盆与右髋之间角度角速度的 y 坐标（在 right_thigh 中）	-Inf	Inf	right_hip_y	铰链	角速度 (rad/s)
34	右髋与右小腿之间角度的角速度（在 right_knee 中）	-Inf	Inf	right_knee	铰链	角速度 (rad/s)
35	骨盆与左髋之间角度角速度的 x 坐标（在 left_thigh 中）	-Inf	Inf	left_hip_x	铰链	角速度 (rad/s)
36	骨盆与左髋之间角度角速度的 z 坐标（在 left_thigh 中）	-Inf	Inf	left_hip_z	铰链	角速度 (rad/s)
37	骨盆与左髋之间角度角速度的 y 坐标（在 left_thigh 中）	-Inf	Inf	left_hip_y	铰链	角速度 (rad/s)
38	左髋与左小腿之间角度的角速度（在 left_knee 中）	-Inf	Inf	left_knee	铰链	角速度 (rad/s)
39	躯干与右臂之间角度角速度的坐标-1（多轴）（在 right_upper_arm 中）	-Inf	Inf	right_shoulder1	铰链	角速度 (rad/s)
40	躯干与右臂之间角度角速度的坐标-2（多轴）（在 right_upper_arm 中）	-Inf	Inf	right_shoulder2	铰链	角速度 (rad/s)
41	右上臂与右下臂之间角度的角速度	-Inf	Inf	right_elbow	铰链	角速度 (rad/s)
42	躯干与左臂之间角度角速度的坐标-1（多轴）（在 left_upper_arm 中）	-Inf	Inf	left_shoulder1	铰链	角速度 (rad/s)
43	躯干与左臂之间角度角速度的坐标-2（多轴）（在 left_upper_arm 中）	-Inf	Inf	left_shoulder2	铰链	角速度 (rad/s)
44	左上臂与左下臂之间角度的角速度	-Inf	Inf	left_elbow	铰链	角速度 (rad/s)
已排除	躯干（中心）的 x 坐标	-Inf	Inf	根	自由	位置 (m)
已排除	躯干（中心）的 y 坐标	-Inf	Inf	根	自由	位置 (m)

身体部位是

身体部位	ID（适用于 `v2`、`v3`、`v4`）	ID（适用于 `v5`）
世界主体 (注意: 所有值都为常数 0)	0	已排除
躯干	1	0
下腰	2	1
骨盆	3	2
右大腿	4	3
右小腿	5	4
右脚	6	5
左大腿	7	6
左小腿	8	7
左脚	9	8
右上臂	10	9
右下臂	11	10
左上臂	12	11
左下臂	13	12

关节是

关节	ID（适用于 `v2`、`v3`、`v4`）	ID（适用于 `v5`）
根（注意：所有值均为常数 0）	0	已排除
根（注意：所有值均为常数 0）	1	已排除
根（注意：所有值均为常数 0）	2	已排除
根（注意：所有值均为常数 0）	3	已排除
根（注意：所有值均为常数 0）	4	已排除
根（注意：所有值均为常数 0）	5	已排除
abdomen_z	6	0
abdomen_y	7	1
abdomen_x	8	2
right_hip_x	9	3
right_hip_z	10	4
right_hip_y	11	5
right_knee	12	6
left_hip_x	13	7
左髋关节 z	14	8
left_hip_y	15	9
left_knee	16	10
right_shoulder1	17	11
right_shoulder2	18	12
right_elbow	19	13
left_shoulder1	20	14
left_shoulder2	21	15
左肘	22	16

(x,y,z) 坐标是平移自由度，而方向是表示为四元数的旋转自由度。您可以在MuJoCo 文档中阅读有关自由关节的更多信息。

注意： 使用 Humanoid-v3 或更早版本时，据报道当使用 mujoco-py 版本 > 2.0 时会出现问题，导致接触力始终为 0。因此，建议在使用 Humanoid 环境时，如果想报告接触力的结果，请使用 mujoco-py 版本 < 2.0（如果实验中不使用接触力，则可以使用版本 > 2.0）。

奖励¶

总奖励为：reward = healthy_reward + forward_reward - ctrl_cost - contact_cost。

healthy_reward：每当仿人机器人健康（参见“情节结束”部分的定义）时，它都会获得一个固定值 healthy_reward 的奖励（默认为 \(5\)）。
forward_reward：一个向前移动的奖励，如果仿人机器人向前移动（在正 \(x\) 方向 / 向右方向），则此奖励为正。 \(w_{forward} \times \frac{dx}{dt}\)，其中 \(dx\) 是质心位移（\(x_{after-action} - x_{before-action}\)），\(dt\) 是动作之间的时间，这取决于 frame_skip 参数（默认为 \(5\)）和 frametime（为 \(0.001\)）——所以默认是 \(dt = 5 \times 0.003 = 0.015\)，\(w_{forward}\) 是 forward_reward_weight（默认为 \(1.25\)）。
ctrl_cost：一个负奖励，用于惩罚仿人机器人采取过大的动作。\(w_{control} \times \|action\|_2^2\)，其中 \(w_{control}\) 是 ctrl_cost_weight（默认为 \(0.1\)）。
contact_cost：一个负奖励，用于惩罚仿人机器人外部接触力过大。\(w_{contact} \times clamp(contact\_cost\_range, \|F_{contact}\|_2^2)\)，其中 \(w_{contact}\) 是 contact_cost_weight（默认为 \(5\times10^{-7}\)），\(F_{contact}\) 是外部接触力（参见观测中的 cfrc_ext 部分）。

info 包含各个奖励项。

注意： Humanoid-v4 环境中存在一个错误，导致 contact_cost 始终为 0。

起始状态¶

初始位置状态是 \([0.0, 0.0, 1.4, 1.0, 0.0, ... 0.0] + \mathcal{U}_{[-reset\_noise\_scale \times I_{24}, reset\_noise\_scale \times I_{24}]}\)。初始速度状态是 \(\mathcal{U}_{[-reset\_noise\_scale \times I_{23}, reset\_noise\_scale \times I_{23}]}\)。

其中 \(\mathcal{U}\) 是多元均匀连续分布。

请注意，z 和 x 坐标不为零，以便仿人机器人可以立即站立并面向前方（x 轴）。

情节结束¶

终止¶

如果 terminate_when_unhealthy is True（默认值），则当仿人机器人不健康时环境终止。如果发生以下任何情况，仿人机器人被认为不健康

躯干的 z 坐标（高度）不在 healthy_z_range 参数给定的闭区间内（默认为 \([1.0, 2.0]\)）。

截断¶

一集默认持续时间为 1000 个时间步。

参数¶

Humanoid 提供了一系列参数来修改观测空间、奖励函数、初始状态和终止条件。这些参数可以在 gymnasium.make 中按以下方式应用

import gymnasium as gym
env = gym.make('Humanoid-v5', ctrl_cost_weight=0.1, ....)

参数	类型	默认值	描述
`xml_file`	str	`"humanoid.xml"`	MuJoCo 模型路径
`forward_reward_weight`	float	`1.25`	forward_reward 项的权重（参见`奖励`部分）
`ctrl_cost_weight`	float	`0.1`	ctrl_cost 项的权重（参见`奖励`部分）
`contact_cost_weight`	float	`5e-7`	contact_cost 项的权重（参见`奖励`部分）
`contact_cost_range`	float	`(-np.inf, 10.0)`	夹紧 contact_cost 项（参见`奖励`部分）
`healthy_reward`	float	`5.0`	healthy_reward 项的权重（参见`奖励`部分）
`terminate_when_unhealthy`	bool	`True`	如果为 `True`，则在不健康时发出 `terminated` 信号（参见`情节结束`部分）
`healthy_z_range`	tuple	`(1.0, 2.0)`	如果躯干的 z 坐标在此范围内，则仿人机器人被视为健康（参见`情节结束`部分）
`reset_noise_scale`	float	`1e-2`	初始位置和速度的随机扰动比例（参见`起始状态`部分）
`exclude_current_positions_from_observation`	bool	`True`	是否从观测中省略 x 和 y 坐标。排除位置可以作为归纳偏差，以在策略中引发位置无关的行为（参见`观测状态`部分）
`include_cinert_in_observation`	bool	`True`	是否在观测中包含 cinert 元素（参见`观测状态`部分）
`include_cvel_in_observation`	bool	`True`	是否在观测中包含 cvel 元素（参见`观测状态`部分）
`include_qfrc_actuator_in_observation`	bool	`True`	是否在观测中包含 qfrc_actuator 元素（参见`观测状态`部分）
`include_cfrc_ext_in_observation`	bool	`True`	是否在观测中包含 cfrc_ext 元素（参见`观测状态`部分）

版本历史¶

v5
- 最低 mujoco 版本现在是 2.3.3。
- 添加了对使用 xml_file 参数的完全自定义/第三方 mujoco 模型支持（以前只能对现有模型进行少量更改）。
- 添加了 default_camera_config 参数，一个用于设置 mj_camera 属性的字典，主要用于自定义环境。
- 添加了 env.observation_structure，一个用于指定观测空间组成（例如 qpos、qvel）的字典，对于为 MuJoCo 环境构建工具和包装器很有用。
- 返回一个非空的 info 和 reset()，以前返回的是一个空字典，新的键与 step() 的状态信息相同。
- 添加了 frame_skip 参数，用于配置 dt（step() 的持续时间），默认值因环境而异，请查阅环境文档页面。
- 修复了错误：healthy_reward 在每一步都会获得（即使仿人机器人不健康），现在只在仿人机器人健康时才获得。 info["reward_survive"] 已根据此更改进行更新（相关GitHub 问题）。
- 恢复了 contact_cost 和相应的 contact_cost_weight 和 contact_cost_range 参数，其默认值与 Humanoid-v3 中相同（在 v4 中已移除）（相关GitHub 问题）。
- 将 worldbody 的 cinert 和 cvel 和 cfrc_ext 以及 root/freejoint 的 qfrc_actuator 从观测空间中排除，因为它们始终为 0，因此无法为智能体提供有用信息，从而略微加快了训练速度（相关GitHub 问题）。
- 恢复了 xml_file 参数（在 v4 中已移除）。
- 添加了 include_cinert_in_observation、include_cvel_in_observation、include_qfrc_actuator_in_observation、include_cfrc_ext_in_observation 参数，以允许从观测空间中排除观测元素。
- 修复了 info["x_position"] & info["y_position"] & info["distance_from_origin"] 返回 xpos 而不是基于 qpos 的观测（xpos 观测滞后 1 个 mj_step()，此处有说明）（相关GitHub 问题 #1 和GitHub 问题 #2）。
- 添加了 info["tendon_length"] 和 info["tendon_velocity"]，其中包含仿人机器人连接髋部到膝盖的 2 条肌腱的观测数据。
- 将 info["reward_alive"] 重命名为 info["reward_survive"]，以与其他环境保持一致。
- 将 info["reward_linvel"] 重命名为 info["reward_forward"]，以与其他环境保持一致。
- 将 info["reward_quadctrl"] 重命名为 info["reward_ctrl"]，以与其他环境保持一致。
- 删除了 info["forward_reward"]，因为它等同于 info["reward_forward"]。
v4：所有 MuJoCo 环境现在都使用 mujoco >= 2.1.3 中的 MuJoCo 绑定
v3：支持 gymnasium.make kwargs，例如 xml_file、ctrl_cost_weight、reset_noise_scale 等。rgb 渲染来自跟踪摄像头（因此智能体不会跑出屏幕）。已移至 gymnasium-robotics 仓库。
- 注意：环境机器人模型在 gym==0.21.0 时略有更改，训练结果与 gym<0.21 和 gym>=0.21 不可比（相关GitHub PR）
v2：所有连续控制环境现在都使用 mujoco-py >= 1.50。已移至 gymnasium-robotics 仓库。
- 注意：环境机器人模型在 gym==0.21.0 时略有更改，训练结果与 gym<0.21 和 gym>=0.21 不可比（相关GitHub PR）
v1：基于机器人的任务的最大时间步数提高到 1000。向环境添加了 reward_threshold。
v0：初始版本发布