深度强化学习之近端策略优化（Proximal Policy Optimization) - 代码天地

深度强化学习之近端策略优化（Proximal Policy Optimization)

其他 2020-02-20 11:32:01 阅读次数: 0

在这里插入图片描述
今天学习了李宏毅老师的深度强化学习课程—策略梯度和近端策略优化，其中近端策略优化是策略梯度的升级版本，并且是openai的默认强化学习算法，可见其重要性。近端策略优化可以在策略梯度的基础上，将在策略变为离策略变，并添加一定的约束得到，因此本部分内容包括策略梯度、在策略变离策略和添加约束三部分内容。

策略梯度方法是对策略参数化，然后通过梯度下降的方法对参数进行优化，从最大化期望累积奖励出发，推导得到参数的更新公式，针对公式中存在的不足，给出了两种改进方式：添加基准和为每个动作分配合适置信度，并定义了优势函数。
在这里插入图片描述

在策略变离策略
在策略：待学习的代理与和环境交互的代理是相同的。
离策略：两者是不同的。
在策略方式下，当策略参数得以更新时，需要重新采样训练数据，而将在策略变为离策略的好处在于，可以使用另一个策略的样本训练当前策略，而那个策略是固定的，因而可以重用这些样本数据。这里用到了重要度采样的概念，但重要度采样也可能存在问题，需要保证两个策略之间不能差别太大。最后给出了离策略下的目标函数。
在这里插入图片描述

为了满足上述的要求，需要在目标函数中额外添加约束，根据添加的约束方式不同，可以有两种算法：PPO(Proximal Policy Optimization)和TPRO(Trust Region Policy Optimization)。

松间沙路hba646333407

发布了42 篇原创文章 · 获赞 56 · 访问量 5705

私信关注

猜你喜欢

转载自blog.csdn.net/hba646333407/article/details/104308146

深度强化学习之近端策略优化（Proximal Policy Optimization)

强化学习笔记：PPO 【近端策略优化（Proximal Policy Optimization）】

【论文阅读】强化学习—近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)

强化学习从基础到进阶–案例与实践[8]：近端策略优化（proximal policy optimization，PPO）算法

【强化学习】Proximal Policy Optimization(PPO)

近端策略优化（proximal policy optimization）算法简述

Proximal Policy Optimization近端策略优化（PPO）

Proximal Policy Optimization(近端策略优化)(PPO)原理详解

【深度强化学习】5. Proximal Policy Optimization

强化学习从基础到进阶-常见问题和面试必知必答[8]：近端策略优化（proximal policy optimization，PPO）算法

Proximal Policy Optimization Algorithms

浅析强化学习Proximal Policy Optimization Algorithms(PPO)

强化学习PPO：Proximal Policy Optimization Algorithms解读

【李宏毅深度强化学习2018】P2 Proximal Policy Optimization (PPO)

李宏毅深度强化学习(国语)课程(2018) 笔记（二）Proximal Policy Optimization（PPO）

Proximal Policy Optimization Algorithms翻译

【李宏毅深度强化学习笔记】2、深度强化学习算法 Proximal Policy Optimization算法(PPO)

Hands on RL 之 Proximal Policy Optimization (PPO)

深度增强学习PPO（Proximal Policy Optimization）算法源码走读

机器学习：李宏毅强化学习笔记（一）Proximal Policy Optimization (PPO)

基于强化学习PPO(Proximal Policy Optimization)算法的无人机姿态控制系统

Proximal Policy Optimization(PPO)算法原理及实现！

【文献阅读】Proximal Policy Optimization Algorithms

Policy Gradient (PG)与Proximal Policy Optimization (PPO)算法详解

Proximal Policy Optimization (PPO) 算法理解：从策略梯度开始

【PPO姿态控制】基于强化学习(Proximal Policy Optimization)PPO训练的无人机姿态控制simulink仿真

Proximal Policy Optimization(PPO)和文本生成

Safe Policy Optimization 复现

TRPO置信域策略优化推导分析《Trust Region Policy Optimization》

强化学习之策略policy 6

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)