前文介绍的策略梯度方法和TRPO方法是随机策略的方法,所谓随机策略就是在确定性策略的基础上添加上随机项。当然强化学习也可以直接使用确定性策略。确定性策略就是对于相同的策略,每种状态对应唯一确定的输出,这样需要采样的数据少,算法的效率高,但是确定性策略缺乏探索和改善的能力,因此基于确定性策略搜索的强化学习方法(DPG)往往采用异策略实现,即行动策略和评估策略不是同一个策略,如行动策略采用随机策略,以保证充足的探索;评估策略选用确定性策略,以保证学习效率,这个学习框架即为AC框架。
基本的迭代公式(公式来源于博客)为:
如果将AC框架中的值函数和策略采用深度神经网络逼近的话就是DDPG.
其他待更新,可参考原文博客。
参考书籍:
深入浅出强化学习原理入门
欢迎关注微信公众号:AITBOOK