[强化学习-1] MP、MRP、MDP和Bellman equation

版权声明:本文为博主原创文章,如若转载,请注明出处! https://blog.csdn.net/u013010889/article/details/81909633

最近又开始重新学习强化学习了,记录一下历程

MP(马尔科夫过程)

定义:S是有限状态集合,P是状态转移概率矩阵
这里写图片描述
例子:
这里写图片描述
我们将一次有限步数的实验称作一个单独的episode
1. C1 C2 Pass Sleep
2. C1 FB FB

MRP(马尔科夫奖励过程)

定义:比MP多了个reward,只要达到某个状态会获得相应奖励R,γ是折扣因子,一个episode中越往后的时刻奖励越打折扣
Reward:每个状态下执行action后立即(从系统以外的环境)获得的评价性响应,必须直接对应RL学习的最终目标
这里写图片描述
Return:累积的未来Reward
这里写图片描述
例子:
这里写图片描述
Value:Return的期望
这里写图片描述
MRP中的贝尔曼等式:V(s)价值函数,然后按照定义展开,变换得到迭代公式(当前时刻该状态价值和下一时刻转移过去的状态价值的关系)划红线处依据好像是期望的期望的等于期望
这里写图片描述
我们先把贝尔曼方程改成了矩阵形式,然后我们需要收敛时状态价值即V(s) = V(s’)时,这时方程变成V=R+γPV,然后利用矩阵的变换直接求解该方程组得到最终收敛的状态价值
但是直接解方程组的复杂度为O(n^3),一般可通过动态规划、蒙特卡洛估计与 Temporal-Difference learning 求解,后续会讲。

MDP(马尔科夫决策过程)

定义:比MRP多了个动作A,
这里写图片描述

策略π的定义:给定状态时采取各个动作的概率分布,不是说给定一个状态该采取什么动作,而给出一个动作的概率分布
这里写图片描述
状态价值函数和动作价值函数的定义:给定一个策略π(给定状态时采取各个动作的概率分布)
这里写图片描述
MRP中的贝尔曼等式:
这里写图片描述
图示: 蓝色大括号是对Q的展开
MDP 是一个多层的 MRP,每一层对应一个行动 a.
MRP是没有动作的,MDP这里每一层对应一个动作a,然后Pa1就是在动作a下的状态转移概率矩阵,右面的细节放大图是它先按照在所有状态下都采用动作a1 a2等算完,然后再重排成纯蓝色块块,代表P的语义,即给定状态如s1下采取各个动作后转移到下一状态的概率矩阵
这里写图片描述

Action-Value Function类似

qπ(s, a)与qπ(s’, a’)、vπ(s’)的关系
这里写图片描述
MDP里,给定策略π下,在状态s下选择a的动作值函数,qπ(s, a)类似之前的MRP里面的v(s)。而MDP中的v(s)是要考虑在状态s下采取各个动作后情况。

贝尔曼最优方程

v ( s ) q ( s , a ) v ( s ) 使 q ( s , a ) q ( s , a ) a
这里写图片描述

v ( s ) q ( s , a )
这里写图片描述


猜你喜欢

转载自blog.csdn.net/u013010889/article/details/81909633