什么是sarsa, sarsa与q-learning的区别 - 代码天地

什么是sarsa, sarsa与q-learning的区别

其他 2018-06-25 20:13:39 阅读次数: 2

Sarsa 决策

Sarsa 的决策部分和 Q learning 一模一样, 因为我们使用的是 Q 表的形式决策, 所以我们会在 Q 表中挑选值较大的动作值施加在环境中来换取奖惩. 但是不同的地方在于 Sarsa 的更新方式是不一样的.

Sarsa 更新行为准则

同样, 我们会经历正在写作业的状态 s1, 然后再挑选一个带来最大潜在奖励的动作 a2, 这样我们就到达了继续写作业状态 s2, 而在这一步, 如果你用的是 Q learning, 你会观看一下在 s2 上选取哪一个动作会带来最大的奖励, 但是在真正要做决定时, 却不一定会选取到那个带来最大奖励的动作, Q-learning 在这一步只是估计了一下接下来的动作值. 而 Sarsa 是实践派, 他说到做到, 在 s2 这一步估算的动作也是接下来要做的动作. 所以 Q(s1, a2) 现实的计算值, 我们也会稍稍改动, 去掉maxQ, 取而代之的是在 s2 上我们实实在在选取的 a2 的 Q 值. 最后像 Q learning 一样, 求出现实和估计的差距并更新 Q 表里的 Q(s1, a2).

对比 Sarsa 和 Q-learning 算法

从算法来看, 这就是他们两最大的不同之处了. 因为 Sarsa 是说到做到型, 所以我们也叫他 on-policy, 在线学习, 学着自己在做的事情. 而 Q learning 是说到但并不一定做到, 所以它也叫作 Off-policy, 离线学习. 而因为有了 maxQ, Q-learning 也是一个特别勇敢的算法.

猜你喜欢

转载自blog.csdn.net/tianguiyuyu/article/details/80692572

什么是sarsa, sarsa与q-learning的区别

Q-learning与Sarsa算法的区别

强化学习算法：Q-learning与Sarsa（区别与联系）

Q-Learning 、Sarsa与 DQN算法

【转载】 Reinforcement Learning : SARSA vs. Q-Learning

时间差分方法Q-learning和sarsa的区别

Bourne强化学习笔记2：彻底搞清楚什么是Q-learning与Sarsa

强化学习(五)：Sarsa算法与Q-Learning算法

强化学习Q-learning 和 Sarsa

《强化学习》中的时序差分控制：Sarsa、Q-learning、期望Sarsa、双Q学习 etc.

强化学习算法学习汇总笔记 (一) — Q-learning、Sarsa、DQN、Policy Gradients

强化学习(五) - 无模型学习(Sarsa、Q-Learning)

深度学习 lab16 强化学习笔记(Q-learning sarsa flappy bird)

强化学习中的无模型基于值函数的 Q-Learning 和 Sarsa 学习

几句话总结一个算法之Q-Learning与Sarsa

【强化学习RL】model-free的prediction和control — MC, TD(λ), SARSA, Q-learning等

MATLAB强化学习入门——二、网格迷宫、Q-learning算法、Sarsa算法

强化学习 Sarsa & Q-learning：on & off policy策略下的时序差分控制

利用MATLAB的强化学习工具箱实现Q-Learning和SARSA算法

强化学习的Sarsa与Q-Learning的Cliff-Walking对比实验

基于时态差分法的强化学习：Sarsa和Q-learning

强化学习中Q-learning和SARSA的区别，以及与马尔可夫决策过程，贝尔曼方程之间的关系

Paddle强化学习从入门到实践（Day2）基于表格的方法：Sarsa和Q-learning

MATLAB强化学习工具箱(一)-在网格环境中使用Q-learning and SARSA

强化学习基础篇[2]：SARSA、Q-learning算法简介、应用举例、优缺点分析

Q-Learing and Sarsa算法区别

什么是 Q-learning

Reinforcement Learning(强化学习)Sarsa/Q_learning

深度学习总结: SARSA , q-learnin,SARSA lamda

Sarsa及实例

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)