【强化学习笔记】9.1 基于确定性策略搜索的强化学习方法 - 代码天地

【强化学习笔记】9.1 基于确定性策略搜索的强化学习方法

其他 2020-05-02 20:09:30 阅读次数: 0

前文介绍的策略梯度方法和TRPO方法是随机策略的方法，所谓随机策略就是在确定性策略的基础上添加上随机项。当然强化学习也可以直接使用确定性策略。确定性策略就是对于相同的策略，每种状态对应唯一确定的输出，这样需要采样的数据少，算法的效率高，但是确定性策略缺乏探索和改善的能力，因此基于确定性策略搜索的强化学习方法（DPG）往往采用异策略实现，即行动策略和评估策略不是同一个策略，如行动策略采用随机策略，以保证充足的探索；评估策略选用确定性策略，以保证学习效率，这个学习框架即为AC框架。

基本的迭代公式（公式来源于博客）为：
这里写图片描述

如果将AC框架中的值函数和策略采用深度神经网络逼近的话就是DDPG.

其他待更新，可参考原文博客。

参考书籍：
深入浅出强化学习原理入门

欢迎关注微信公众号：AITBOOK
在这里插入图片描述

AITBOOK

原创文章 99 获赞 103 访问量 34万+

关注私信

猜你喜欢

转载自blog.csdn.net/bigheadyushan/article/details/81416860

【强化学习笔记】9.1 基于确定性策略搜索的强化学习方法

基于策略搜索的强化学习方法

【强化学习笔记】8.1 基于置信域策略优化的强化学习方法

【强化学习笔记】7.1 基于策略梯度的强化学习方法

2020年强化学习-不确定性决策与强化学习

2020年强化学习-不确定性决策与强化学习

深度强化学习-确定性策略梯度算法推导

强化学习-深度确定性策略梯度（第5章）

深度强化学习系列之（５）－从确定性策略（DPG）到深度确定性策略梯度(DDPG)算法的原理讲解及tensorflow代码实现

强化学习笔记

强化学习策略梯度方法笔记

《强化学习》基于策略的方法

《强化学习与最优控制》学习笔记（一）：确定性动态规划和随机性动态规划

【强化学习笔记】4.1 无模型的强化学习方法-蒙特卡罗算法

【强化学习笔记】6.7 基于值函数逼近的强化学习方法-深度强化学习网络(DQN)

强化学习——基于策略梯度的强化学习算法

强化学习学习笔记

强化学习的学习笔记

强化学习学习[1]——基于蒙特卡罗的强化学习方法

强化学习——策略优化（笔记）

深度强化学习笔记：策略梯度

强化学习复习笔记

强化学习入门笔记

深度强化学习笔记

RLChina强化学习笔记

强化学习笔记（二）

强化学习笔记（五）

强化学习笔记：DDPG

强化学习笔记整理

强化学习笔记（六）

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)