强化学习之策略policy 6

在这里插入图片描述

在决定性策咯中,从一组环境状态到一组潜在动作的映射(把映射这个数学概念想象成加工厂),输入的是状态而输出的是动作,如果agent想要遵循策略,只需要构建工厂或者指定映射。
在这里插入图片描述
在随机性策略中,映射接收环境状态s和动作a,返回智能体在状态s下采取动作A的可能性。

在上一次的吸尘器的马尔科夫图中可以表示为
在这里插入图片描述

如果帮到你
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43236007/article/details/89293716