RLAI读书笔记-第四章-Dynamic programing - 代码天地

RLAI读书笔记-第四章-Dynamic programing

其他 2018-08-29 14:48:43 阅读次数: 0

Dynamic Programming
动态规划求解MDP

4.1 policy Prediction
策略状态到行为的映射

4.2 policy Improvement
最优策略
问题: 表格计算K=3的值怎么计算出来的？
P87 计算K=3是序号为1的表格
注意:
边界外的Vk自身(意味着原地不动)
-2.4 = 0.25 * (-1 + 1.0 * 0) + 0.25 * (-1 + 1.0 * -2.0) +
0.25 * (-1 + 1.0 * -2.0) + 0.25 * (-1 + 1.0 * -1.7)
4.3 Policy Iteration
4.4 Value Iteration
虽然不需要策略的参与但是仍然需要知道迭代的价值函数+转移概率

4.5 Asynchronous DP
异步

4.6 Generalized Policy Iteration
广义的策略迭代 GPI
两个方面:
1.如何得到策略Value
2.如何通过价值反过来获得最优策略
GPI 核心:循环交互 = 迭代value function,迭代policy improment

总结
zhihu： https://zhuanlan.zhihu.com/p/25580624
1.不断迭代计算值函数每一轮状态不断更新(no discount) 如何计算？算不对
2.最后通过max value来选择最优策略

==》策略迭代算法 P87
问题: 一定要等待值函数收敛完毕才进行策略的improvment？
值函数迭代法

David Silver总结
https://zhuanlan.zhihu.com/p/28084955
1.同步反向迭代 Vk采用第K+1次的状态不可能实现
=》异步反向迭代第K+1次采用当前K的状态价值更新自我状态
状态s的价值等于前一次迭代该状态的即时奖励与所有s的下一个可能状态s’ 的价值与其概率乘积的和
Vk+1 = 每一个动作的可能性π(a|s) * {Rk + γ * P * Vk}

2.策略迭代: e.g. 连锁汽车租赁
固定一个策略开始value迭代,迭代一定程度后,进行policy改善,直到最终收敛

思考:
很多时候价值更新的收敛速度远慢于策略更新,如何解决？
设置条件,提前终止迭代

猜你喜欢

转载自blog.csdn.net/u014297722/article/details/82025667

RLAI读书笔记-第四章-Dynamic programing

Programing Hive读书笔记

《Reinforcement Learning》读书笔记 4：动态规划（Dynamic Programing）

找零钱问题(dynamic programing)

强化学习（RLAI）读书笔记第四章动态规划

Scala Language Programing Guide（章节四）

《图解HTTP》读书笔记——第四章

《锋利的JQuery》读书笔记——第四章

《文明之光》第四章读书笔记

linux programing error code

bundle programing guide

UNIX网络编程第四章读书笔记-基本TCP套接口编程

长尾理论读书笔记：第四章长尾的三种力量

读书笔记-《机器学习》第四章：决策树

Effective Java读书笔记 -- 第四章：类和接口

《Effective Objective-C 2.0》读书笔记---第四章

机器学习-第四章决策树读书笔记（周志华）

现代操作系统读书笔记--第四章文件系统

推荐系统实践读书笔记-第四章

c++primer plus 6 读书笔记第四章复合类型

读书笔记：Android设计模式第四章

Java并发编程实战:第四章读书笔记

Java编程思想读书笔记——第四章：控制执行流程

深入理解java虚拟机第四章读书笔记

《Java8实战》-第四章读书笔记（引入流Stream）

JavaScript高级程序设计----读书笔记，第四章

图解TCP/I读书笔记之二——IP协议（第四章）

Android群英传读书笔记——第四章：ListView使用技巧

Java并发编程的艺术-----第四章读书笔记

读书笔记之《数据结构》---第四章串

今日推荐

手把手教你用 LangChain 实现大模型 Agent

外星人入侵（python）

超全的免费chatGPT列表【建议收藏】

52.2k star! 自己部署gpt4free, 免费使用各种GPT

2024年（第十届）全国大学生统计建模大赛优秀论文解析——中国经济发展与碳排放库兹涅茨曲线的验证研究

【自动驾驶技术】自动驾驶汽车AI芯片汇总——NVIDIA篇

7个免费的ChatGPT网站，给大家送上

Angular v18 正式发布！

【VMware】 vCenter Converter standalone 6.6.0正式版下载

开源日报 | Angular v18；大模型价格战下的推理优化；Mistral AI以开源模型瞄准美国市场；硅谷有自己的鲁迅

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

周排行

keepalived实现LB配置

数据库相关中间件收录集

Spring Boot 入门之 Web 篇（二） Spring Boot 入门之 Web 篇（二）

gitee 搭建个人网站

Java校招基础知识总结（横扫BAT,就业经验交流会演讲稿）

工程管理器

Delphi定位TDataSet数据集最后一条记录

cocos2dx笔记1:概述

Java实现 LeetCode 110 平衡二叉树

MacBook IDEA激活码

每日归档

更多

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)