Pusher¶

此环境是 Mujoco 环境的一部分，其中包含有关该环境的通用信息。


动作空间	`Box(-2.0, 2.0, (7,), float32)`
观测空间	`Box(-inf, inf, (23,), float64)`
导入	`gymnasium.make("Pusher-v5")`

描述¶

“Pusher”是一个多关节机器人手臂，与人类手臂非常相似。目标是使用机器人的末端执行器（称为指尖）将目标圆柱体（称为物体）移动到目标位置。机器人由肩关节、肘关节、前臂关节和腕关节组成。

动作空间¶

动作空间是 Box(-2, 2, (7,), float32)。动作 (a, b) 表示施加在铰链关节上的扭矩。

序号	动作	控制最小值	控制最大值	名称（在对应的 XML 文件中）	关节	类型（单位）
0	肩部平移旋转	-2	2	r_shoulder_pan_joint	铰链	扭矩 (N m)
1	肩部抬升关节的旋转	-2	2	r_shoulder_lift_joint	铰链	扭矩 (N m)
2	肩部滚动关节的旋转	-2	2	r_upper_arm_roll_joint	铰链	扭矩 (N m)
3	弯曲肘部的铰链关节的旋转	-2	2	r_elbow_flex_joint	铰链	扭矩 (N m)
4	使前臂滚动的铰链的旋转	-2	2	r_forearm_roll_joint	铰链	扭矩 (N m)
5	弯曲手腕的旋转	-2	2	r_wrist_flex_joint	铰链	扭矩 (N m)
6	使手腕滚动的旋转	-2	2	r_wrist_roll_joint	铰链	扭矩 (N m)

观测空间¶

观测空间由以下部分（按顺序）组成：

qpos（7 个元素）： 机器人身体部件的位置值。
qvel（7 个元素）： 这些单独身体部件的速度（它们的导数）。
xpos（3 个元素）： 推杆指尖的坐标。
xpos（3 个元素）： 要移动的物体的坐标。
xpos（3 个元素）： 目标位置的坐标。

观测空间是一个 Box(-Inf, Inf, (17,), float64)，其中元素如下：

序号	观测	最小值	最大值	名称（在对应的 XML 文件中）	关节	类型（单位）
0	肩部平移旋转	-Inf	Inf	r_shoulder_pan_joint	铰链	角度 (rad)
1	肩部抬升关节的旋转	-Inf	Inf	r_shoulder_lift_joint	铰链	角度 (rad)
2	肩部滚动关节的旋转	-Inf	Inf	r_upper_arm_roll_joint	铰链	角度 (rad)
3	弯曲肘部的铰链关节的旋转	-Inf	Inf	r_elbow_flex_joint	铰链	角度 (rad)
4	使前臂滚动的铰链的旋转	-Inf	Inf	r_forearm_roll_joint	铰链	角度 (rad)
5	弯曲手腕的旋转	-Inf	Inf	r_wrist_flex_joint	铰链	角度 (rad)
6	使手腕滚动的旋转	-Inf	Inf	r_wrist_roll_joint	铰链	角度 (rad)
7	肩部平移的旋转速度	-Inf	Inf	r_shoulder_pan_joint	铰链	角速度 (rad/s)
8	肩部抬升关节的旋转速度	-Inf	Inf	r_shoulder_lift_joint	铰链	角速度 (rad/s)
9	肩部滚动关节的旋转速度	-Inf	Inf	r_upper_arm_roll_joint	铰链	角速度 (rad/s)
10	弯曲肘部的铰链关节的旋转速度	-Inf	Inf	r_elbow_flex_joint	铰链	角速度 (rad/s)
11	使前臂滚动的铰链的旋转速度	-Inf	Inf	r_forearm_roll_joint	铰链	角速度 (rad/s)
12	弯曲手腕的旋转速度	-Inf	Inf	r_wrist_flex_joint	铰链	角速度 (rad/s)
13	使手腕滚动的旋转速度	-Inf	Inf	r_wrist_roll_joint	铰链	角速度 (rad/s)
14	推杆指尖的 x 坐标	-Inf	Inf	tips_arm	滑动	位置 (m)
15	推杆指尖的 y 坐标	-Inf	Inf	tips_arm	滑动	位置 (m)
16	推杆指尖的 z 坐标	-Inf	Inf	tips_arm	滑动	位置 (m)
17	要移动物体的 x 坐标	-Inf	Inf	物体 (obj_slidex)	滑动	位置 (m)
18	要移动物体的 y 坐标	-Inf	Inf	物体 (obj_slidey)	滑动	位置 (m)
19	要移动物体的 z 坐标	-Inf	Inf	物体	圆柱体	位置 (m)
20	物体目标位置的 x 坐标	-Inf	Inf	目标 (goal_slidex)	滑动	位置 (m)
21	物体目标位置的 y 坐标	-Inf	Inf	目标 (goal_slidey)	滑动	位置 (m)
22	物体目标位置的 z 坐标	-Inf	Inf	目标	球体	位置 (m)

为了理解状态空间，可以将其类比为人类手臂，其中“弯曲”和“滚动”的含义与人类关节中的含义相同。

奖励¶

总奖励为：reward = reward_dist + reward_ctrl + reward_near。

reward_near：此奖励衡量推杆的指尖（未连接的一端）与物体之间的距离，推杆指尖离目标越远，负值越大。其表达式为 \(-w_{near} \|(P_{fingertip} - P_{target})\|_2\)，其中 \(w_{near}\) 是 reward_near_weight（默认值为 \(0.5\)）。
reward_dist：此奖励衡量物体与目标位置之间的距离，物体离目标越远，负值越大。其表达式为 \(-w_{dist} \|(P_{object} - P_{target})\|_2\)，其中 \(w_{dist}\) 是 reward_dist_weight（默认值为 \(1\)）。
reward_control：一个负奖励，惩罚推杆采取过大的动作。其衡量方式为动作的负平方欧几里得范数，即 \(-w_{control} \|action\|_2^2\)，其中 \(w_{control}\) 是 reward_control_weight（默认值为 \(0.1\)）。

info 包含各个奖励项。

起始状态¶

Pusher 臂的初始位置状态为 \(0_{6}\)。物体的初始位置状态为 \(\mathcal{U}_{[[-0.3, -0.2], [0, 0.2]]}\)。目标的永久位置状态为 \([0.45, -0.05, -0.323]\)。Pusher 臂的初始速度状态为 \(\mathcal{U}_{[-0.005 \times I_{6}, 0.005 \times I_{6}]}\)。物体的初始速度状态为 \(0_2\)。目标的永久速度状态为 \(0_3\)。

其中 \(\mathcal{U}\) 是多元均匀连续分布。

请注意，物体的初始位置状态会进行采样，直到其到目标的距离 \( > 0.17 m\)。

默认帧率为 5，每帧持续 0.01，因此 dt = 5 * 0.01 = 0.05。

回合结束¶

终止¶

Pusher 从不终止。

截断¶

一个回合的默认持续时间为 100 个时间步。

参数¶

Pusher 提供了一系列参数来修改观测空间、奖励函数、初始状态和终止条件。这些参数可以在 gymnasium.make 中按以下方式应用：

import gymnasium as gym
env = gym.make('Pusher-v5', xml_file=...)

参数	类型	默认值	描述
`xml_file`	str	`"pusher_v5.xml"`	MuJoCo 模型路径
`reward_near_weight`	float	`0.5`	reward_near 项的权重（参见 `Rewards` 部分）
`reward_dist_weight`	float	`1`	reward_dist 项的权重（参见 `Rewards` 部分）
`reward_control_weight`	float	`0.1`	reward_control 项的权重（参见 `Rewards` 部分）

版本历史¶

v5
- 最低 mujoco 版本现在是 2.3.3。
- 修复了错误：增加了物体的密度，使其高于空气密度（相关 GitHub issue）。
- 添加了 default_camera_config 参数，一个用于设置 mj_camera 属性的字典，主要用于自定义环境。
- 添加了 frame_skip 参数，用于配置 dt（step() 的持续时间），默认值因环境而异，请查阅环境文档页面。
- 添加了 xml_file 参数。
- 修复了错误：reward_distance 和 reward_near 之前是基于物理步进前的状态，现在基于物理步进后的状态（相关 GitHub issue）。
- 添加了 reward_near_weight, reward_dist_weight, reward_control_weight 参数以配置奖励函数（默认值与 v4 中基本相同）。
- 修复了 info["reward_ctrl"] 未乘以奖励权重的问题。
- 添加了 info["reward_near"]，其值等于奖励项 reward_near。
v4：所有 MuJoCo 环境现在使用 mujoco >= 2.1.3 中的 MuJoCo 绑定。
- 警告：此版本的环境与 mujoco>=3.0.0 不兼容（相关 GitHub issue）。
v3：此环境没有 v3 版本。已移至 gymnasium-robotics 仓库。
v2：所有连续控制环境现在使用 mujoco-py >= 1.50。已移至 gymnasium-robotics 仓库。
v1：基于机器人的任务（不包括 pusher，其 max_time_steps 为 100）的 max_time_steps 提高到 1000。向环境添加了 reward_threshold。
v0：初始版本发布。