本笔记参考《Reinforcement Learning: An Introduction》和
David Silver的公开课及其ppt
David Silver的课程在Tabular Soluction上介绍的比较多。可以配合David Silver的课程来理解《Reinforcement Learning: An Introduction》这本书的内容
DP指的是一组算法,可以用来计算最佳策略,给定一个完美的model作为马尔科夫决策过程(MDP)[这是必须的]。当然之后介绍的算法不是用DP解的,它只是给后面要介绍的方法基础理论
一定要注意DP解问题的必要条件。我们假设environment是finite MDP。其中我们假设它的state,action以及reward sets, 是有限的,而且它的动态性是通过一系列的概率 给出来的
4.2 Policy Evaluation (Prediction)
Policy evaluation Estimate
Iterative policy evaluation
Policy Evaluation就是对于任意policy
,计算出state-value function
。这也被看成prediction problem
4.2 Policy Improvement
Policy improvement Generate
Greedy policy improvement
policy improvement theorem
假设有
比
更好
证明:
很自然的就会想到使用 greedy policy在每个状态s根据 选择最好的a,从而得到新的policy
4.3 Policy Iteration
把Policy Evaluation (Prediction)和Policy Improvement两个过程迭代进行,最终获得收敛的最佳policy
![](/qrcode.jpg)
注意上图的迭代是Policy Evaluation和Policy Improvement交替进行的
这个过程被证明是收敛的,最后一定可以收敛到最佳的policy
4.4 Value Iteration
Value Iteration不像policy iteration,没有显式的 policy evaluation。policy iteration的一个缺点是每次迭代都要进行完整的policy evaluation,这非常的耗时。
policy evaluation的步骤可以被截取为少许的几步,而且还保证policy iteration的收敛。一个特殊的例子就是在仅进行一个sweep后停止。
在每个sweep中,执行一个sweep的policy evaluation和一个sweep的policy improvement
注意与policy iteration的区别
与
Problem | Bellman Equation | Algorithm |
---|---|---|
Prediction | Bellman Expectation Equation | Iterative Policy Evaluation |
Control | Bellman Expectation Equation + Greedy Policy Improvement | Iterative Policy Evaluation |
Control | Bellman Optimality Equation | Value Iteration |
4.6 Generalized Policy Iteration (GPI)
上面说的迭代就是强化学习的迭代框架