函数式环境¶
- class gymnasium.experimental.functional.FuncEnv(options: dict[str, Any] | None = None)[source]¶
函数式环境的基类(模板)。
此 API 旨在以无状态方式使用,环境状态被明确地传递。话虽如此,这里没有任何东西阻止用户以有状态方式使用环境,只是不推荐。函数式环境由以下函数(在这种情况下,实例方法)组成:
initial: 返回 POMDP 的初始状态
observation: 返回给定状态下的观测
transition: 返回在给定状态下执行动作后的下一个状态
reward: 返回给定 (状态, 动作, 下一个状态) 元组的奖励
terminal: 返回给定状态是否是终止状态
state_info: 可选,返回关于给定状态的信息字典
step_info: 可选,返回关于给定 (状态, 动作, 下一个状态) 元组的信息字典
基于类的结构允许在类中定义环境常量,然后通过名称在代码中使用它们。
目前,这主要是为了内部使用。此 API 可能会发生变化,但未来我们打算对其进行充实并正式向最终用户公开。
初始化环境常量。
- transition(state: StateType, action: ActType, rng: Any, params: Params | None = None) StateType [source]¶
使用动作和随机数生成器更新(转换)状态。
- observation(state: StateType, rng: Any, params: Params | None = None) ObsType [source]¶
为环境的给定状态生成观测。
- reward(state: StateType, action: ActType, next_state: StateType, rng: Any, params: Params | None = None) RewardType [source]¶
计算给定 state、action 到 next_state 转换的奖励。
- terminal(state: StateType, rng: Any, params: Params | None = None) TerminalType [source]¶
返回状态是否是最终的终止状态。
- transition_info(state: StateType, action: ActType, next_state: StateType, params: Params | None = None) dict [source]¶
关于完整转换的信息字典。