倒立摆 Acrobot¶

该环境是经典控制环境的一部分，其中包含有关环境的一般信息。


动作空间	`离散(3)`
观测空间	`Box([ -1. -1. -1. -1. -12.566371 -28.274334], [ 1. 1. 1. 1. 12.566371 28.274334], (6,), float32)`
导入	`gymnasium.make("Acrobot-v1")`

描述¶

Acrobot 环境基于 Sutton 在“强化学习中的泛化：使用稀疏粗编码的成功案例”和Sutton 和 Barto 的书中的工作。该系统由两个线性连接形成链条的连杆组成，链条的一端是固定的。两个连杆之间的关节是驱动的。目标是通过在驱动关节上施加扭矩，使线性链条的自由端摆动到给定高度以上，同时从向下悬挂的初始状态开始。

如 Gif 动画所示：两个蓝色连杆由两个绿色关节连接。两个连杆之间的关节是驱动的。目标是通过在执行器上施加扭矩，使外连杆的自由端达到目标高度（系统上方黑色水平线）。

动作空间¶

动作是离散的、确定性的，表示施加在两个连杆之间驱动关节上的扭矩。

编号	动作	单位
0	对驱动关节施加 -1 扭矩	扭矩 (牛米)
1	对驱动关节施加 0 扭矩	扭矩 (牛米)
2	对驱动关节施加 1 扭矩	扭矩 (牛米)

观测空间¶

观测结果是一个形状为 (6,) 的 ndarray，提供关于两个旋转关节角度及其角速度的信息

编号	观测	最小值	最大值
0	`theta1` 的余弦	-1	1
1	`theta1` 的正弦	-1	1
2	`theta2` 的余弦	-1	1
3	`theta2` 的正弦	-1	1
4	`theta1` 的角速度	约 -12.567 (-4 * π)	约 12.567 (4 * π)
5	`theta2` 的角速度	约 -28.274 (-9 * π)	约 28.274 (9 * π)

其中

theta1 是第一个关节的角度，其中角度为 0 表示第一个连杆直接向下。
theta2 是相对于第一个连杆角度而言的。 角度为 0 意味着两个连杆之间的角度相同。

theta1 和 theta2 的角速度分别限制在 ±4π 和 ±9π 弧度/秒。状态 [1, 0, 1, 0, ..., ...] 表示两个连杆都指向下方。

奖励¶

目标是让自由端以尽可能少的步数达到指定的目标高度，因此所有未达到目标的步骤都会产生 -1 的奖励。达到目标高度将导致终止，奖励为 0。奖励阈值为 -100。

初始状态¶

基础状态中的每个参数（theta1、theta2 以及两个角速度）都在 -0.1 到 0.1 之间均匀初始化。这意味着两个连杆都向下，并带有一定的初始随机性。

回合结束¶

回合在以下任一情况发生时结束：

终止：自由端达到目标高度，其定义为：-cos(theta1) - cos(theta2 + theta1) > 1.0
截断：回合长度大于 500 (v0 为 200)

参数¶

Acrobot 只有 render_mode 作为 gymnasium.make 的关键字参数。在重置时，options 参数允许用户更改用于确定新随机状态的边界。

>>> import gymnasium as gym
>>> env = gym.make('Acrobot-v1', render_mode="rgb_array")
>>> env
<TimeLimit<OrderEnforcing<PassiveEnvChecker<AcrobotEnv<Acrobot-v1>>>>>
>>> env.reset(seed=123, options={"low": -0.2, "high": 0.2})  # default low=-0.1, high=0.1
(array([ 0.997341  ,  0.07287608,  0.9841162 , -0.17752565, -0.11185605,
       -0.12625128], dtype=float32), {})

默认情况下，Acrobot 的动力学遵循 Sutton 和 Barto 的书《强化学习：导论》中所述。但是，可以修改 book_or_nips 参数，将摆的动力学更改为原始NeurIPS 论文中描述的动力学。

# To change the dynamics as described above
env.unwrapped.book_or_nips = 'nips'

有关详细信息，请参阅以下说明

NIPS 论文中的动力学方程缺少书中存在的某些项。R. Sutton 在私人通信中证实，论文和书中显示的实验结果是使用书中显示的方程生成的。但是，通过设置 book_or_nips = 'nips'，可以选择使用论文中的方程运行该领域。

版本历史¶

v1：最大步数从 200 增加到 500。v0 的观测空间直接以弧度提供了 theta1 和 theta2 的读数，范围为 [-pi, pi]。而此处描述的 v1 观测空间提供了每个角度的正弦和余弦。
v0：初始版本发布

参考文献¶

Sutton, R. S. (1996). Generalization in Reinforcement Learning: Successful Examples Using Sparse Coarse Coding. In D. Touretzky, M. C. Mozer, & M. Hasselmo (Eds.), Advances in Neural Information Processing Systems (Vol. 8). MIT Press. https://proceedings.neurips.cc/paper/1995/file/8f1d43620bc6bb580df6e80b0dc05c48-Paper.pdf
Sutton, R. S., Barto, A. G. (2018 ). Reinforcement Learning: An Introduction. The MIT Press.