[强化学习-1] MP、MRP、MDP和Bellman equation

最近又开始重新学习强化学习了，记录一下历程

MP(马尔科夫过程)

定义：S是有限状态集合，P是状态转移概率矩阵
这里写图片描述
例子：

我们将一次有限步数的实验称作一个单独的episode
1. C1 C2 Pass Sleep
2. C1 FB FB

MRP(马尔科夫奖励过程)

定义：比MP多了个reward，只要达到某个状态会获得相应奖励R，γ是折扣因子，一个episode中越往后的时刻奖励越打折扣
Reward：每个状态下执行action后立即（从系统以外的环境）获得的评价性响应，必须直接对应RL学习的最终目标
这里写图片描述
Return：累积的未来Reward

例子：

Value：Return的期望

MRP中的贝尔曼等式：V(s)价值函数，然后按照定义展开，变换得到迭代公式(当前时刻该状态价值和下一时刻转移过去的状态价值的关系)划红线处依据好像是期望的期望的等于期望
这里写图片描述
我们先把贝尔曼方程改成了矩阵形式，然后我们需要收敛时状态价值即V(s) = V(s’)时，这时方程变成V=R+γPV，然后利用矩阵的变换直接求解该方程组得到最终收敛的状态价值
但是直接解方程组的复杂度为O(n^3)，一般可通过动态规划、蒙特卡洛估计与 Temporal-Difference learning 求解，后续会讲。

MDP(马尔科夫决策过程)

定义：比MRP多了个动作A，
这里写图片描述

策略π的定义：给定状态时采取各个动作的概率分布，不是说给定一个状态该采取什么动作，而给出一个动作的概率分布
这里写图片描述
状态价值函数和动作价值函数的定义：给定一个策略π(给定状态时采取各个动作的概率分布)

MRP中的贝尔曼等式：

图示: 蓝色大括号是对Q的展开
MDP 是一个多层的 MRP，每一层对应一个行动 a.
MRP是没有动作的，MDP这里每一层对应一个动作a，然后Pa1就是在动作a下的状态转移概率矩阵，右面的细节放大图是它先按照在所有状态下都采用动作a1 a2等算完，然后再重排成纯蓝色块块，代表P的语义，即给定状态如s1下采取各个动作后转移到下一状态的概率矩阵
这里写图片描述