强化学习&动态规划2 | 策略完善 Policy Improvement

接下来问题就是如何找到更好的策略了,找到更好的策略以后,然后带入该策略,再次进行迭代策略评估,这个过程不断循环得到最优策略。具体过程如下

策略评估获得了一个策略并产生值函数,然后我们使用该值函数和策略完善的方法,获得一个潜在完善的新策略,然后带入新策略再次进行策略评估,然后进行策略完善,不断重复,直到收敛于最优策略。
在这里插入图片描述
那么我们知道值函数以后如何求得更好地策略呢?
第一步,将状态值函数转化为动作值函数
第二步,选取最大动作值函数的动作

在这里插入图片描述
算法伪代码如下图表示
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43236007/article/details/107856792
今日推荐