学习笔记：ＤＤＰＧ

其他 2018-06-06 09:35:30 阅读次数: 5

学习内容：ＤＤＰＧ

关键词：记忆库，估计网络，现实网络，Policy Gradient，Value Based，Actor-Critic

简述：

ＤＤＰＧ（Deep Deterministic Policy Gradient）可以概括为两个部分Deep和Deterministic Policy Gradient，其中Deep和ＤＱＮ类似拥有两套结构相同但是更新频率不同的神经网络，Deterministic Policy Gradient指的是确定性策略梯度．在连续动作上输出一个动作值．

动作估计网络输出实时动作，为actor在现实中实行，动作现实网络用于更新价值网络系统．状态估计网络将actor的动作当做输入，状态现实网络将动作现实网络输出动作与状态值加以分析．

DDPG是基于actor-critic的无模型确定性策略梯度算法，人工智能就是解决无数据预处理，多维度，敏感输入的多目标任务。DQN只能解决低维度的离散输出动作的任务，不能直接解决连续动作任务，DQN及其衍生算法直接扔掉了动作空间中一些可能有用的信息。

DDPG吸收练DQN算法的优点，使用异策略（离线学习）方法，在样本存储缓存区（replay buffer）中采样最小化样本间的相关性，使用Q-network训练，并定时返回参数。

Policy Gradient:

能够在连续区间内挑选动作，并且不通过分析反向误差，而是直接输出行为．是基于整条回合数据的更新和基于策略梯度的更新

DDPG伪代码：

伪代码注释：

随机初始化critic网络和actor网络，并初始化各自参数

初始化上述两个网络对应目标网络

初始化repaly buffer

在Ｍ个回合内：

随机初始化分布Ｎ用作动作探索

初始化初始状态

在次数Ｔ内：

根据当前策略和噪声选择动作

执行动作和得到奖励与下一个状态

将当前状态，当前动作，当前奖励和下一个状态存储在Ｒ中

随机采样

根据critic的损失函数更新critic网络

根据actor的梯度更新actor网络

结束循环

结束循环

公式的前半部分表示根据梯度选择奖赏值最大的动作，后半部分表示根据梯度选择选该最大奖赏值动作的策略

Tensorboard 数据图：

接下来展开C-train，C代表critic，在训练价值系统时，需要当前状态ｓ，下一个状态ｓ＿，环境奖励Ｒ，和策略梯度，其中用到Actor的是eval网络即动作估计网络，来更新价值系统．

再展开TD_error，采用时序差分算法计算现实网络和估计网络的差值，论文采用均方差求解，然后传递给C-train

展开target_q，Ｑ现实现实更新与下一个状态和动作奖励有关

展开Policy Gradient，策略梯度算法与当前状态有关

猜你喜欢

转载自blog.csdn.net/qq_31239495/article/details/80313803

学习笔记：ＤＤＰＧ

学习笔记

×××学习笔记

学习-笔记

【学习笔记】git学习笔记

【学习笔记】VBA学习笔记

【学习笔记】JSON学习笔记

【学习笔记】Servlet学习笔记

【学习笔记】Fastjson学习笔记

笔记：Python学习笔记

[学习笔记] AD笔记

【笔记】Golang学习笔记

【笔记】vim 学习笔记

集成学习-学习笔记

学习：SpringMVC学习笔记

学习：MyBatis学习笔记

深度学习学习笔记

学习笔记 - 编程学习

集成学习--学习笔记

学习笔记 - 机器学习

《机器学习》学习笔记

【学习笔记】机器学习

机器学习-学习笔记

【Qt笔记】Qt学习笔记

OpenCV学习笔记笔记汇总

学习笔记（30）- pandas笔记

【笔记整理】元学习笔记

[个人学习笔记]CSS学习笔记

学习笔记：AlexNet&Imagenet学习笔记

Opencv学习笔记（六）SURF学习笔记

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)