连续山地车¶

../../../_images/mountain_car_continuous.gif

此环境属于经典控制环境的一部分，其中包含有关环境的一般信息。


动作空间	`Box(-1.0, 1.0, (1,), float32)`
观测空间	`Box([-1.2 -0.07], [0.6 0.07], (2,), float32)`
导入	`gymnasium.make("MountainCarContinuous-v0")`

描述¶

山地车 MDP 是一个确定性 MDP，其中一辆汽车随机放置在正弦波谷的底部，唯一可能的动作是沿任一方向施加到汽车上的加速度。MDP 的目标是策略性地加速汽车，使其到达右侧山顶上的目标状态。Gymnasium 中山地车领域有两个版本：一个具有离散动作，另一个具有连续动作。此版本是具有连续动作的版本。

此 MDP 最初出现在 Andrew Moore 的博士论文 (1990) 中

@TECHREPORT{Moore90efficientmemory-based,
    author = {Andrew William Moore},
    title = {Efficient Memory-based Learning for Robot Control},
    institution = {University of Cambridge},
    year = {1990}
}

观测空间¶

观测值是一个形状为 (2,) 的 ndarray，其中元素对应如下

编号	观测	最小值	最大值	单位
0	汽车沿 x 轴的位置	-1.2	0.6	位置 (米)
1	汽车的速度	-0.07	0.07	速度 (v)

动作空间¶

动作是一个形状为 (1,) 的 ndarray，表示施加在汽车上的方向力。动作被截断在 [-1,1] 范围内，并乘以 0.0015 的功率。

转移动力学：¶

给定一个动作，山地车遵循以下转移动力学

速度_t+1 = 速度_t + 力 * self.power - 0.0025 * cos(3 * 位置_t)

位置_t+1 = 位置_t + 速度_t+1

其中力是截断在 [-1,1] 范围内的动作，功率是常数 0.0015。两端的碰撞是非弹性的，与墙壁碰撞后速度设为 0。位置被截断在 [-1.2, 0.6] 范围内，速度被截断在 [-0.07, 0.07] 范围内。

奖励¶

每个时间步都会收到一个 -0.1 * 动作² 的负奖励，以惩罚采取大幅度动作。如果山地车到达目标，则该时间步的负奖励会增加 +100 的正奖励。

初始状态¶

汽车的位置被赋予 [-0.6 , -0.4] 范围内的一个均匀随机值。汽车的初始速度始终设为 0。

剧集结束¶

如果发生以下任一情况，剧集结束

终止：汽车的位置大于或等于 0.45（右侧山顶上的目标位置）
截断：剧集长度为 999。

参数¶

连续山地车有两个 gymnasium.make 参数：render_mode 和 goal_velocity。在重置时，options 参数允许用户更改用于确定新随机状态的边界。

>>> import gymnasium as gym
>>> env = gym.make("MountainCarContinuous-v0", render_mode="rgb_array", goal_velocity=0.1)  # default goal_velocity=0
>>> env
<TimeLimit<OrderEnforcing<PassiveEnvChecker<Continuous_MountainCarEnv<MountainCarContinuous-v0>>>>>
>>> env.reset(seed=123, options={"low": -0.7, "high": -0.5})  # default low=-0.6, high=-0.4
(array([-0.5635296,  0.       ], dtype=float32), {})

版本历史¶

v0：初始版本发布