【强化学习笔记】9.1 基于确定性策略搜索的强化学习方法

前文介绍的策略梯度方法和TRPO方法是随机策略的方法,所谓随机策略就是在确定性策略的基础上添加上随机项。当然强化学习也可以直接使用确定性策略。确定性策略就是对于相同的策略,每种状态对应唯一确定的输出,这样需要采样的数据少,算法的效率高,但是确定性策略缺乏探索和改善的能力,因此基于确定性策略搜索的强化学习方法(DPG)往往采用异策略实现,即行动策略和评估策略不是同一个策略,如行动策略采用随机策略,以保证充足的探索;评估策略选用确定性策略,以保证学习效率,这个学习框架即为AC框架。

基本的迭代公式(公式来源于博客)为:
这里写图片描述

如果将AC框架中的值函数和策略采用深度神经网络逼近的话就是DDPG.

其他待更新,可参考原文博客。

参考书籍:
深入浅出强化学习原理入门


欢迎关注微信公众号:AITBOOK
在这里插入图片描述

原创文章 99 获赞 103 访问量 34万+

猜你喜欢

转载自blog.csdn.net/bigheadyushan/article/details/81416860