强化学习算法Policy Gradient

企业开发 2019-04-17 13:17:52 阅读次数: 0

1 算法的优缺点

　1.1　优点

　　在DQN算法中，神经网络输出的是动作的q值，这对于一个agent拥有少数的离散的动作还是可以的。但是如果某个agent的动作是连续的，这无疑对DQN算法是一个巨大的挑战，为了解决这个问题，前辈们将基于值的方法改成了基于策略的方法，即输出动作的概率。

　1.2　缺点

　　策略梯度算法应用未来损失的return作为更新迭代的依据，即在一个回合过后，在这一回合中，若执行的某一动作的动作价值R大，则会加在下一回合选择这一动作的概率，反之，若执行的某一动作的动作价值R小，则会在下一回合选择这一动作的概率减小。因此，要想用return做为预测动作概率的神经网络更新的依据，就必须先拥有一个决策链，才能将return计算出来，因此每一个更新是在一个回合结束后才能更新一个。更新的速率比较慢

2 算法的流程

　2.1 算法的整体逻辑

　2.2　算法的更新逻辑

猜你喜欢

转载自www.cnblogs.com/swenwen/p/10722851.html

【强化学习】Policy Gradient算法详解

基于policy gradient的强化学习算法

强化学习算法Policy Gradient

强化学习--Policy Gradient

强化学习: Policy Gradient

【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解

【强化学习】Deep Deterministic Policy Gradient(DDPG)算法详解

【强化学习】Policy Gradient（策略梯度）算法详解

强化学习七 - Policy Gradient Methods

强化学习导论——Policy Gradient Methods

【深度强化学习】Policy Gradient

强化学习 - 策略梯度（Policy Gradient）

【李宏毅深度强化学习笔记】1、深度强化学习算法策略梯度方法（Policy Gradient）

强化学习知识汇总(3) - Policy Gradient

强化学习系列（十三）：Policy Gradient Methods

强化学习基础四--Policy Gradient 理论推导

强化学习(十三) 策略梯度(Policy Gradient)

深度强化学习-Policy Gradient基本实现

强化学习数学基础1---Policy Gradient

Deterministic Policy Gradient Algorithms (DPG强化学习) 论文翻译

强化学习(六)——策略梯度Policy Gradient

【深度强化学习】4. Policy Gradient

强化学习DDPG：Deep Deterministic Policy Gradient解读

强化学习笔记-13 Policy Gradient Methods

【强化学习】17 ——DDPG（Deep Deterministic Policy Gradient）

强化学习算法 Policy Gradient 解决 CartPole 问题，代码逐条详解

强化学习入门（四）策略梯度方法 Policy Gradient 求解强化学习问题

深度学习-深度强化学习(DRL)-Policy Gradient与PPO笔记

深度强化学习系列之（５）前言———策略梯度（Policy Gradient）

强化学习（RLAI）读书笔记第十三章策略梯度方法（Policy Gradient Methods）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)