玩具文本¶ 二十一点 悬崖行走 冰冻湖 出租车 玩具文本环境旨在非常简单,具有小的离散状态和动作空间,因此易于学习。因此,它们适用于调试强化学习算法的实现。 环境可以通过在每个环境的文档中指定的参数进行配置。