悬崖漫步¶

此环境是玩具文本环境的一部分，其中包含关于环境的通用信息。


动作空间	`Discrete(4)`
观测空间	`Discrete(48)`
导入	`gymnasium.make("CliffWalking-v0")`

悬崖漫步涉及在网格世界中从起点到目标移动，同时避免掉下悬崖。

描述¶

游戏开始时，玩家位于 4x12 网格世界的 [3, 0] 位置，目标位于 [3, 11]。如果玩家到达目标，则回合结束。

悬崖沿着 [3, 1..10] 分布。如果玩家移动到悬崖位置，则返回起始位置。

玩家持续移动直到到达目标。

改编自 Sutton 和 Barto 的《Reinforcement Learning: An Introduction》中的例 6.6（第 132 页）[1]。

悬崖可以选择是湿滑的（默认禁用），因此玩家有时可能会垂直于预期方向移动（参见 is_slippy）。

动作形状为 (1,)，范围为 {0, 3}，表示移动玩家的方向。

有 3 x 12 + 1 种可能的状态。玩家不能位于悬崖或目标位置，因为后者会导致回合结束。剩下的位置是前 3 行的所有位置加上左下角的单元格。

观测值是一个表示玩家当前位置的值，计算方式为 current_row * ncols + current_col (其中行和列都从 0 开始)。

例如，起始位置可以计算如下：3 * 12 + 0 = 36。

观测值以 int() 形式返回。

回合开始时，玩家处于状态 [36]（位置 [3, 0]）。

每个时间步会产生 -1 奖励，除非玩家踏入悬崖，这将产生 -100 奖励。

当玩家进入状态 [47]（位置 [3, 11]）时，回合结束。

step() 和 reset() 返回一个包含以下键的字典

由于悬崖漫步不是随机的，因此返回的转移概率始终为 1.0。

import gymnasium as gym
gym.make('CliffWalking-v1')

[1] R. Sutton and A. Barto, “Reinforcement Learning: An Introduction” 2020. [在线]. 可在以下网址获取： http://www.incompleteideas.net/book/RLbook2020.pdf