在决定性策咯中,从一组环境状态到一组潜在动作的映射(把映射这个数学概念想象成加工厂),输入的是状态而输出的是动作,如果agent想要遵循策略,只需要构建工厂或者指定映射。
在随机性策略中,映射接收环境状态s和动作a,返回智能体在状态s下采取动作A的可能性。
在上一次的吸尘器的马尔科夫图中可以表示为
如果帮到你
在决定性策咯中,从一组环境状态到一组潜在动作的映射(把映射这个数学概念想象成加工厂),输入的是状态而输出的是动作,如果agent想要遵循策略,只需要构建工厂或者指定映射。
在随机性策略中,映射接收环境状态s和动作a,返回智能体在状态s下采取动作A的可能性。
在上一次的吸尘器的马尔科夫图中可以表示为
如果帮到你