Spinning Up - 为什么介绍这些算法？ - 代码天地

Spinning Up - 为什么介绍这些算法？

其他 2020-07-24 22:25:07 阅读次数: 0

摘自：https://spinningup.readthedocs.io/zh_CN/latest/user/algorithms.html

为什么介绍这些算法？

我们在这个项目中选取了能够呈现强化学习近些年发展历程的核心算法。目前，在 可靠性 (stability)和 采样效率 (sample efficiency)这两个因素上表现最优的策略学习算法是 PPO 和 SAC。从这些算法的设计和实际应用中，可以看出可靠性和采样效率两者的权衡。

同策略（On-Policy）算法

Vanilla Policy Gradient(VPG) 是深度强化学习领域最基础也是入门级的算法，发表时间远早于深度强化学习。VPG 算法的核心思想可以追溯到上世纪 80 年代末、90年代初。在那之后，TRPO（2015）和 PPO(2017) 等更好的算法才相继诞生。

上述系列工作都是基于不使用历史数据的同策略，因此在采样效率上表现相对较差。但这也是有原因的：它们直接优化我们关心的目标 —— 策略表现。这个系列的算法都是用采样效率换取可靠性，之后提出的算法，从 VPG 到TRPO 再到 PPO，都是在不断弥补采样效率方面的不足。

异策略（Off-Policy）算法

DDPG 是一个和 VPG 同样重要的算法，尽管它的提出时间较晚。确定策略梯度（Deterministic Policy Gradients，DPG）理论是在 2014 年提出的，是 DDPG 算法的基础。DDPG 算法和 Q-learning 算法很相似，都是同时学习 Q 函数和策略并通过更新相互提高。

DDPG 和 Q-Learning 属于 异策略 算法，他们通过对贝尔曼方程（Bellman’s equations,也称动态规划方程）的优化，实现对历史数据的有效利用。

但问题是，满足贝尔曼方程并不能保证一定有很好的策略性能。从经验上讲，满足贝尔曼方程可以有不错的性能、很好的采样效率,但也由于没有这种必然性的保证，这类算法没有那么稳定。基于 DDPG的后续工作 TD3 和 SAC 提出了很多新的方案来缓解这些问题。

强化学习算法的分类

一个不是很详细但是十分有用的现代强化学习算法分类

猜你喜欢

转载自www.cnblogs.com/yi-xia/p/13374791.html

Spinning Up - 为什么介绍这些算法？

Spinning Up

【Spinning Up】绘制结果

【spinning up】代码详解目录

在 Windows 10 中使用 OpenAI Spinning Up

【Spinning Up】2. 实验输出

【Spinning Up】python同时启动多个不同参数脚本

强化学习系列3：Open AI的baselines和Spinning Up

【Spinning Up】spinup的run_utils，实现批量调参，极简模式

【Spinning Up】一文弄懂序列化模块json、pickle和cloudpickle

【Spinning Up】parse_args（argsparse）：python和命令行之间的交互

Callbacks and Spinning

UP ！

USACO 3.2 Spinning Wheels 单纯模逆

介绍 SURF(Speeded-Up Robust Features)

ramp up是什么意思？

unity中transform的up\right\forward与Vector3的up\right\forward有什么区别？

USACO-Section 3.2-PROB Spinning Wheels

Tensorflow lite up up~

G - Shuffle'm Up // 用到map函数不明白为什么要用搜索，

B站只有1080P，UP主为什么要拍4K

燃尽图（Burn up and Burn down Chart）—介绍

我的视频up主之路——高中专业介绍篇

爬取B站程序猿up主，分析程序猿up出什么类型的视频会受欢迎

Lining Up

Mess it up!

Sum It Up

喜欢的up

up泪

python爬取B站千万级数据，发现了这些热门UP主的秘密！

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)