Functional Env¶
- class gymnasium.experimental.functional.FuncEnv(options: dict[str, Any] | None = None)[source]¶
Functional envs 的基类(模板)。
此 API 旨在以无状态方式使用,环境状态显式传递。话虽如此,这里没有任何东西阻止用户有状态地使用环境,只是不推荐这样做。功能性环境由以下函数(在本例中为实例方法)组成
initial:返回 POMDP 的初始状态
observation:返回给定状态下的观测
transition:返回在给定状态下采取动作后的下一个状态
reward:返回给定 (state, action, next_state) 元组的奖励
terminal:返回给定状态是否为终止状态
state_info:可选,返回有关给定状态的信息字典
step_info:可选,返回有关给定 (state, action, next_state) 元组的信息字典
基于类的结构用于允许在类中定义环境常量,然后在代码本身中按名称使用它们。
目前,这主要供内部使用。此 API 可能会更改,但在未来我们打算充实它并正式向最终用户公开。
初始化环境常量。
- transition(state: StateType, action: ActType, rng: Any, params: Params | None = None) StateType [source]¶
使用动作和随机数生成器更新(转换)状态。
- observation(state: StateType, rng: Any, params: Params | None = None) ObsType [source]¶
为给定环境状态生成观测。
- reward(state: StateType, action: ActType, next_state: StateType, rng: Any, params: Params | None = None) RewardType [source]¶
计算从 state、action 到 next_state 的给定转换的奖励。
- terminal(state: StateType, rng: Any, params: Params | None = None) TerminalType [source]¶
返回状态是否为最终终止状态。
- transition_info(state: StateType, action: ActType, next_state: StateType, params: Params | None = None) dict [source]¶
有关完整转换的信息字典。