外部环境¶
第一方环境¶
Farama 基金会维护着许多其他项目,这些项目使用 Gymnasium API,环境包括:网格世界 (Minigrid)、机器人 (Gymnasium-Robotics)、3D 导航 (Miniworld)、Web 交互 (MiniWoB++)、街机游戏 (Arcade Learning Environment)、Doom (ViZDoom)、元目标机器人 (Metaworld)、自动驾驶 (HighwayEnv)、复古游戏 (stable-retro) 等等。
Farama 基金会还维护着用于 RL 的备用 API,包括:多智能体 RL (PettingZoo)、离线 RL (Minari)、多目标 RL (MO-Gymnasium)、目标 RL (Gymnasium-Robotics)。
带有 Gymnasium 的第三方环境¶
此页面包含非 Farama 基金会维护的环境,因此,不能保证这些环境能按预期运行。
如果您想贡献一个环境,请在 Discord 上联系我们,然后通过编辑此文件提交 PR,更多说明可以在该文件中找到
自动驾驶环境¶
自动驾驶汽车和交通管理。
-
一系列用于空中交通管理任务的 Gymnasium 环境,允许民用和城市航空应用。建立在开源空中交通模拟器 BlueSky 之上。
gym-electric-motor:用于电机模拟的 Gym 环境
一个用于模拟各种电驱动器的环境,考虑了不同类型的电机和变流器。
racecar_gym:使用 PyBullet 的微型赛车环境
一个使用 PyBullet 物理引擎的微型赛车的 gym 环境。
-
SUMO 交通模拟器中各种环境的 Gymnasium 包装器。支持单智能体和多智能体设置(使用 pettingzoo)。
生物 / 医学环境¶
与生物系统交互。
-
ICU-Sepsis 是一个表格强化学习环境,模拟重症监护病房 (ICU) 中脓毒症的治疗。在论文 ICU-Sepsis:从真实医疗数据构建的基准 MDP 中介绍,该环境轻量级且易于使用,但对大多数强化学习算法来说具有挑战性。
经济 / 金融环境¶
所有与经济学相关的内容。
-
AnyTrading 是 Gym 环境的集合,用于基于强化学习的交易算法,非常注重简洁性、灵活性和全面性。
gym-mtsim:用于 MetaTrader 5 平台的金融交易
MtSim 是 MetaTrader 5 交易平台的模拟器,用于基于强化学习的交易算法。
-
Gym Trading Env 从历史数据模拟股票(或加密货币)市场。它旨在快速且易于定制。
电气 / 能源环境¶
管理电子的流动。
EV2Gym:用于电动汽车智能充电的真实电动汽车-V2G-Gym 模拟器
EV2Gym 是一个完全可定制且易于配置的环境,用于小型和大型电动汽车 (EV) 智能充电模拟。此外,还包括非 RL 基线实现,例如数学规划、模型预测控制和启发式方法。
游戏环境¶
棋盘游戏、电子游戏和所有其他互动娱乐媒介。
-
Craftium 将 Minetest 游戏引擎包装到 Gymnasium API 中,为设计类似 Minecraft 的 RL 环境提供了一个现代且易于使用的平台。
-
Flappy Bird 作为 Farama Gymnasium 环境。
flappy-bird-gymnasium:用于 Gymnasium 的 Flappy Bird 环境
一个用于单智能体强化学习算法的简单环境,基于 Flappy Bird 的克隆,这款街机风格的手机游戏非常受欢迎。状态和像素观测环境均可用。
Generals.io 机器人:为 generals.io 开发您的智能体!
Generals.io 是一款快节奏的 2D 网格策略游戏。我们通过 Gymnasium/PettingZoo API 使机器人开发变得易于访问。
pystk2-gymnasium:SuperTuxKart 赛车 gymnasium 包装器
使用 python 包装器 围绕 SuperTuxKart,允许访问世界状态并控制比赛。
QWOP:Bennet Foddy 的游戏 QWOP 的环境
QWOP 是一款关于在 100 米跑道上极速奔跑的游戏。使用此 Gymnasium 环境,您可以训练自己的智能体并尝试打破当前的世界纪录(人类为 5.0 游戏内秒,AI 为 4.7 秒)。
Tetris Gymnasium:完全可配置的 Gymnasium 兼容 Tetris 环境
Tetris Gymnasium 是 Tetris 的干净实现,作为 Gymnasium 环境。它可以进行广泛的自定义(例如,棋盘尺寸、重力等),文档齐全,并包含许多关于如何使用它的示例,例如通过提供训练脚本。
-
tmrl 是一个分布式框架,用于在实时应用中训练深度强化学习 AI。它在 TrackMania 2020 视频游戏中得到演示。
数学 / 计算¶
减少计算量、证明数学定理等等。
spark-sched-sim:用于在 Apache Spark 中调度 DAG 作业的环境
spark-sched-sim 模拟 Spark 集群,用于基于 RL 的作业调度算法。Spark 作业被编码为有向无环图 (DAG),为在 RL 上下文中试验图神经网络 (GNN) 提供了机会。
-
一个用于指导基于饱和算法的自动定理证明器的环境(例如,Vampire)。
机器人环境¶
自主机器人。
-
BSK-RL 是一个 Python 包,用于构建用于航天器任务问题的 Gymnasium 环境。它构建在 Basilisk 之上,Basilisk 是一个模块化且快速的航天器模拟框架,使模拟环境具有高保真度和计算效率。BSK-RL 还包括用于处理这些环境的实用程序和示例集合
-
Connect-4-Gym 是一个环境,旨在创建通过相互对弈学习并为它们分配 Elo 等级的 AI。此环境可用于训练和评估经典棋盘游戏 Connect Four 上的强化学习智能体。
-
FlyCraft 是一个用于固定翼无人机任务的 Gymnasium 环境。默认情况下,FlyCraft 提供两个任务:姿态控制和速度矢量控制。这些任务以其多目标和长时程性质为特征,对 RL 探索构成重大挑战。此外,奖励可以配置为马尔可夫或非马尔可夫,使 FlyCraft 适用于非马尔可夫问题的研究。
-
JAX 中的 RL 环境,允许高度向量化的环境,并支持许多环境,Gym、MinAtari、bsuite 等。
-
gym-jiminy 提出了最初 Gym 的扩展,用于机器人技术,使用 Jiminy,这是一个非常快速和轻量级的模拟器,用于多关节系统,使用 Pinocchio 进行物理评估,使用 Meshcat 进行基于 Web 的 3D 渲染。
gym-pybullet-drones:用于四旋翼飞行器控制的环境
一个使用 PyBullet 的简单环境,用于模拟 Bitcraze Crazyflie 2.x 纳米四旋翼飞行器的动力学。
-
Itomori 是一个用于风险感知无人机飞行的环境,它提供工具来解决机会约束马尔可夫决策过程 (CCMDP)。该环境允许模拟、可视化和评估复杂和危险环境中的无人机导航,包括 GPS 不确定性、碰撞风险和自适应飞行计划等变量。Itomori 旨在通过提供可调整的参数、详细的可视化和对不确定环境中智能体行为的洞察力来支持无人机路径规划研究。
OmniIsaacGymEnvs:用于 NVIDIA Omniverse Isaac 的 Gym 环境
用于 Omniverse Isaac 模拟器的强化学习环境。
panda-gym:使用 PyBullet 物理引擎的机器人环境
基于 PyBullet 的机械臂移动物体模拟。
-
一个用于在各种无人机上测试强化学习算法的库。它建立在 Bullet 物理引擎之上,提供灵活的渲染选项、时间离散的可步进物理、Python 绑定以及对任何配置的自定义无人机的支持,无论是双翼飞机、四旋翼飞行器、火箭以及您能想到的任何东西。
-
通过基于 PyBullet 的 CartPole 和四旋翼飞行器环境评估安全性、鲁棒性和泛化性——使用 CasADi (符号) 先验 动力学和约束。
Safety-Gymnasium:确保现实世界 RL 场景中的安全
高度可扩展和可定制的安全强化学习库。
电信系统环境¶
交互和/或管理无线和/或有线电信系统。
-
一个开放、极简的 Gymnasium 环境,用于无线移动网络中的自主协调。
其他¶
-
Buffalo-Gym 是一个多臂老虎机 (MAB) gymnasium,主要用于辅助调试 RL 实现。MAB 通常很容易推理智能体正在学习的内容以及它是否正确。Buffalo-gym 包含老虎机、上下文老虎机和带有别名的上下文老虎机。
-
流行的强化学习环境的上下文扩展,支持泛化的训练和测试分布,例如,具有可变杆长的 CartPole 或具有不同地面摩擦力的 Brax 机器人。
-
一个用于 动态算法配置的基准库。它的重点是不同 DAC 方法的可重复性和可比性,以及优化过程的轻松分析。
-
智能体通过更改其单元状态与元胞自动机交互的环境。
-
默认类实现“前往目标”,但它可以轻松自定义以适应不同的任务,具有各种网格、奖励、动力学和任务。它支持不同的观测类型(离散、坐标、二进制、像素、部分)。对于快速测试和原型化 RL 算法(表格和函数逼近)非常有用。
-
一个轻松实现离散 MDP 作为 gym 环境的环境。将一组矩阵(
P_0(s)
、P(s'| s, a)
和R(s', s, a)
)转换为表示由这些动力学规则的离散 MDP 的 gym 环境。 SimpleGrid:用于 Gymnasium 的简单网格环境
SimpleGrid 是一个超级简单且极简的 Gymnasium 网格环境。它易于使用和自定义,旨在为快速测试和原型化不同的 RL 算法提供环境。
使用 Gym 的第三方环境¶
有大量第三方环境使用各种版本的 Gym。其中许多可以适应与 gymnasium 一起使用(请参阅与 Gym 的兼容性),但不保证完全正常运行。
视频游戏环境¶
-
一个 3v3 MOBA 环境,您可以在其中训练生物相互战斗。
SlimeVolleyGym:Slime Volleyball 游戏的简单环境
一个简单的环境,用于在 Slime Volleyball 游戏的克隆上基准测试单智能体和多智能体强化学习算法。
Unity ML Agents:用于 Unity 游戏引擎的环境
用于 Unity 游戏引擎的任意和预制环境的 Gym(和 PettingZoo)包装器。
-
使用用于 AI 模拟的 Open 3D Engine,并且可以与 Gym 互操作。使用 PyBullet 物理引擎。
机器人环境¶
-
Mars Explorer 是一个与 Gym 兼容的环境,旨在开发并作为初步尝试,以弥合强大的深度强化学习方法与未知地形的探索/覆盖问题之间的差距。
-
Robo-gym 提供了一系列强化学习环境,涉及适用于模拟和真实世界机器人的机器人任务。
-
Gym 环境,让您通过互联网控制实验室中的真实机器人。
-
一个大规模基准,用于共同优化软体机器人的设计和控制。
-
一个具有高质量真实场景的模拟环境,使用 PyBullet 进行交互式物理。
-
这是一个库,通过 Isaac Gym 提供双灵巧手操作任务。
自动驾驶环境¶
gym-duckietown:用于自动驾驶汽车的lane-following
一个为 Duckietown 项目(小型自动驾驶汽车课程)构建的 lane-following 模拟器。
-
一个 Gym,用于解决各种交通场景的运动规划问题,与 CommonRoad 基准兼容,后者提供可配置的奖励、动作空间和观测空间。
-
在模拟中训练基于模型的 RL 智能体,并在不进行微调的情况下将其转移到小型赛车。
-
一个用于自动驾驶赛车的开源强化学习环境。
其他环境¶
-
用于编译器优化任务的强化学习环境,例如 LLVM 阶段排序、GCC 标志调整和 CUDA 循环嵌套代码生成。
-
环境由运输拼图组成,玩家的目标是将所有箱子推到仓库的存储位置。
NLPGym:用于开发 RL 智能体以解决 NLP 任务的工具包
NLPGym 为标准 NLP 任务(如序列标记、问题解答和序列分类)提供交互式环境。
-
ShinRL:一个用于从理论和实践角度评估 RL 算法的库(深度 RL Workshop 2021)
openmodelica-microgrid-gym:用于控制微电网中电力电子转换器的环境
OpenModelica Microgrid Gym (OMG) 包是一个软件工具箱,用于基于电力电子转换器的能量转换的微电网的模拟和控制优化。
-
GymFC 是一个用于合成神经飞行控制器的模块化框架。已用于为世界上第一个开源神经网络飞行控制固件 Neuroflight 生成策略。