RLAId读书笔记-第八章-Planning and Learning - 代码天地

RLAId读书笔记-第八章-Planning and Learning

编程语言 2018-09-03 23:10:44 阅读次数: 0

Planning and Learning with Table
向前搜索采样
8.1 models and Planning
distribution model –返回所有可能的Action以及其概率
sample model– 根据概率返回一种行为
样本模型的数学公式: R,S’ = model(S,A)
planning model==动态规划启发式查询都是通过模型获取价值信息
learning model==MC TD方法都是通过experience来获得价值信息

8.2 Dyna:Learning
idea：
通过experience直接优化policy&model,同时model又可以间接地优化policy

伪代码 P186

// n==0 就是Q-learning公式
loop repeat n times:
S <= random state
A <= random Action in State
R,S' <= model(S,A)
Q(S,A) <= Q(S,A) + α{R + γ*Max_a Q(S',a)-Q(S,A)}

可以带来性能上的提高
e.g. P187

8.3 Prioritized Sweeping
优化交换
只进行评估前后误差大于seita的策略价值
用作性能优化

其他章节是对于上面章节中的组件进行了分析我就没看了

8.11 Monte Carlo Tree Search
1.MC Search
a.从St模拟K个Episodes(有一个特定的策略模拟,这也是主要缺点–可能并不是最优的)
b.使用a步骤的平均Reward评估当前动作的行为价值Q(St,a)
c.Max Q(St,a)作为实际采取的动作at

2.MC Tree Search
https://zhuanlan.zhihu.com/p/28423255 图形化解释
Value越大的action 越优先选择best-first(被选择的概率越大)
==》其搜索树将越来越深，那些能够引导个体获胜的搜索树内的节点将会被充分的探索，其节点代表的状态价值也越来越有说服力

summary
知乎model-based的优缺点 https://zhuanlan.zhihu.com/p/28423255

猜你喜欢

转载自blog.csdn.net/u014297722/article/details/82193103

RLAId读书笔记-第八章-Planning and Learning

《deep learning for cv with python practical bundle》第八章读书笔记

Deep Learning 第八章优化

第八章　Ensemble_learning

《Think in Java》读书笔记--第八章

《图解HTTP》读书笔记——第八章

图解HTTP读书笔记.第八章

Pattern Recognition and Machine Learning 第八章贝叶斯网络

读书笔记：《C++ PrimerPlus》第一章～第八章

长尾理论读书笔记：第八章长尾经济学

构建之法--第八章读书笔记需求分析

推荐系统实践读书笔记-第八章

c++primer plus 6 读书笔记第八章函数探幽

读书笔记-《机器学习》第八章：集成学习

《Google C++编码规范》读书笔记第八章：格式

Java疯狂讲义读书笔记第八章

读书笔记之《计算机网络》---第八章

探索式测试--第八章（软件测试的未来）--读书笔记

Head First设计模式读书笔记七第八章模板方法模式

Java编程思想读书笔记——第八章：多态

强化学习（RLAI）读书笔记第八章表格方法的规划与学习

MySQL5.7从入门到精通--------第八章读书笔记

不测的秘密：精准测试之路----读书笔记（第八章）

Unix环境高级编程读书笔记第八章进程控制

《统计学习方法》第八章: 提升方法读书笔记

《深入理解java虚拟机》读书笔记七——第八章

headfirst设计模式第八章读书笔记--模板方法模式

《HeadFirst设计模式》第八章模版方法模式-读书笔记

Docker | docker 技术入门与实战（第八章 | 读书笔记）

kubernetes权威指南第4版第八章节读书笔记

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)