李宏毅深度强化学习(国语)课程(2018) 笔记（四）Q-learning （Advanced Tips） - 代码天地

李宏毅深度强化学习(国语)课程(2018) 笔记（四）Q-learning （Advanced Tips）

企业开发 2023-07-01 07:47:31 阅读次数: 0

李宏毅深度强化学习(国语)课程(2018)

李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili

Tip 1 Double DQN

原始DQN中，Q value往往是被高估的。Double DQN 的估值一般和实际值相差不多。

DQN中，Target Q value值很容易一不小心就被设置的太高。

Double DQN里面，有两个Q network，第一个network决定哪一个action的Q value 最大，决定了action以后，实际的Q value是用 Q＇算出来的。举例说明，假设第一个高估了自己选出来的action，没有关系，只要第二个Q＇没有高估，就还是正常的。反之，如果Q＇高估了action的值，那也没关系，只要Q不选那个action出来就可以了。

实际操作过程中，会拿实际操作的Q去选action ，然后拿target 不动的network去算value。

Tip 2 Dueling DQN

Dueling DQN改了DQN network的架构。

update V(s)的时候，不需要把所有的(s,a)都sample过，是一种比较efficient的方式把Q value 估测出来。对A做一些constraint，迫使去更新V。

实际操作中如下，normalization。

其他的技巧：

TD error比较大的data ，说明没有被train好的，所以要给出比较大的几率被sample到，多train几次。Prioritized Replay不仅仅改变了sample data的distribution，还要跟着更改train data的process。

把noise加到参数上，比加到action上更合理。在同一场游戏里面，noise固定后，同一个state 一般是同一个动作，而不是同一个state，会做出不同的action。

Reward会有Distribution，取mean就得到了Q value，不同的Distribution或许有同样的mean，如果用expected Q value代替Reward，有一些information是会loss的。

直接output Reward的Distribution，即在某一个state，采取某个action，reward落在某个分值区间的几率。红、橙、蓝分别代表采取a1、a2、a3所得到的Reward的Distribution。例如，在某些应用中，在两个mean差不多的情况下，或许某一个variance比较大，代表风险比较高，可以规避风险高的。

猜你喜欢

转载自blog.csdn.net/qq_22749225/article/details/125536547

李宏毅深度强化学习(国语)课程(2018) 笔记（四）Q-learning （Advanced Tips）

【李宏毅深度强化学习笔记】4、Q-learning更高阶的tip (Advanced Tips)

李宏毅深度强化学习(国语)课程(2018) 笔记（三）Q-learning （Basic Idea）

李宏毅深度强化学习(国语)课程(2018) 笔记（五）Q-learning （Continuous Action）

李宏毅深度强化学习(国语)课程(2018) 笔记（八）Imitation Learning

李宏毅深度强化学习(国语)课程(2018) 笔记（二）Proximal Policy Optimization（PPO）

李宏毅深度强化学习(国语)课程(2018) 笔记（一）Policy Gradient （Review）

李宏毅深度强化学习(国语)课程(2018) 笔记（七）Sparce Reward

李宏毅深度强化学习(国语)课程(2018) 笔记（六）Actor-Critic

【李宏毅深度强化学习2018】P3 Q-learning（Basic Idea）

机器学习：李宏毅深度强化学习笔记（二）Q-Learning

【李宏毅深度强化学习笔记】3、深度强化学习算法 Q-learning（Basic Idea）

【李宏毅深度强化学习笔记】3、深度强化学习算法 Q-learning（Basic Idea）

【深度强化学习一】Q-Learning初识（1）（李宏毅老师学习视频笔记）

【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)

李宏毅机器学习课程笔记3：Backpropagation、"Hello world" of Deep Learning、Tips for Training DNN

强化学习笔记：Q-learning

Q-learning学习笔记

[李宏毅-机器学习]Tips for deep learning

9、【李宏毅机器学习（2017）】Tips for Deep Learning（深度学习优化）

【李宏毅深度学习合辑】Advanced Topics in Deep Learning - Imitation Learning

【笔记】机器学习 - 李宏毅 - 10 - Tips for Training DNN

李宏毅机器学习笔记-9：Tips For Training DNN

【李宏毅-强化学习笔记】一、深度强化学习surface

强化学习-Q-learning学习笔记

机器学习：李宏毅深度强化学习笔记（五）Imitation Learning

【李宏毅深度强化学习笔记】8、Imitation Learning

机器学习：李宏毅深度强化学习笔记（四）Sparse Reward

【李宏毅-强化学习笔记】p3-p5、Q_learning

【李宏毅深度强化学习笔记】1、深度强化学习算法策略梯度方法（Policy Gradient）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)