强化学习 - 策略梯度（Policy Gradient） - 代码天地

强化学习 - 策略梯度（Policy Gradient）

业界资讯 2023-12-17 21:31:48 阅读次数: 0

引言

强化学习常见的方法为基于值函数或者基于策略梯度。

值函数：值函数最优时得到最优策略，即状态s下，最大行为值函数maxQ(s,a)对应的动作。

但对于机器人连续动作空间，动作连续时，基于值函数，存在以下问题：

当动作空间很大，或者动作为连续集时，基于值函数的方法无法有效求解。
基于值函数的方法在进行策略改进时，需要针对每个状态行为求取行为值函数，以求得最优动作 $\frac{argmax}{a\in A}Q(s,a))$ ,这种情况下，把每一个状态行为严格地独立出来，求取某个状态下应该执行的行为是不切实际的。

总结：用值函数Q求解连续空间action，也能用但不好用，所以出现了，策略梯度法。

1.策略梯度

随机策略梯度：使用 $P (a,s;\theta )$ 直接逼近 $\pi (a,s)$ ,我们需要求得的就时神经网络参数θ。为了求解θ需要设计一个目标函数J(θ)=G(θ)（累计回报值），θ更新公式为：

此方法基于目标函数J(θ)的梯度进行策略参数更行。

J(θ)分为两种：

1.MC中，有完成的链条：

2.TD中，有步长限制时：

式中，是基于策略生成的关于状态s的分布

进一步就得到了梯度的表达式：

2.Actor

策略梯度就是AC中的A

Actor：从下图可以看出，就是输入智能体观察到的图像（对计算机而言就是矩阵，向量），输出智能体可能采取的动作概率分布。

进一步我们要衡量Actor的优劣，基于Actor可以得到一系列回报，计算平均回报，比较策略的优劣R就是上文的J。

然后我们想求得最优的Actor，（R就是上文J的延深），使用梯度上升法，进而得到：

3.延深

猜你喜欢

转载自blog.csdn.net/weixin_48878618/article/details/134336260

强化学习 - 策略梯度（Policy Gradient）

强化学习(十三) 策略梯度(Policy Gradient)

强化学习(六)——策略梯度Policy Gradient

【强化学习】Policy Gradient（策略梯度）算法详解

强化学习入门（四）策略梯度方法 Policy Gradient 求解强化学习问题

强化学习--Policy Gradient

强化学习: Policy Gradient

策略梯度(Policy gradient)学习心得

深度强化学习系列之（５）前言———策略梯度（Policy Gradient）

强化学习（RLAI）读书笔记第十三章策略梯度方法（Policy Gradient Methods）

[强化学习实战]策略梯度方法(policy gradient)-python车杆平衡实战

【李宏毅深度强化学习笔记】1、深度强化学习算法策略梯度方法（Policy Gradient）

【强化学习】Policy Gradient算法详解

强化学习七 - Policy Gradient Methods

强化学习导论——Policy Gradient Methods

基于policy gradient的强化学习算法

强化学习算法Policy Gradient

【深度强化学习】Policy Gradient

第十一章策略梯度（Policy Gradient）-强化学习理论学习与代码实现（强化学习导论第二版）

Policy Gradient梯度策略（PG）

【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解

强化学习知识汇总(3) - Policy Gradient

强化学习系列（十三）：Policy Gradient Methods

强化学习基础四--Policy Gradient 理论推导

深度强化学习-Policy Gradient基本实现

强化学习数学基础1---Policy Gradient

Deterministic Policy Gradient Algorithms (DPG强化学习) 论文翻译

【深度强化学习】4. Policy Gradient

强化学习DDPG：Deep Deterministic Policy Gradient解读

【强化学习】Deep Deterministic Policy Gradient(DDPG)算法详解

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)