强化学习入门简介

简介：

从最基本的马尔科夫决策过程入手，解决此类问题最基本的方法——动态规划方法。解决强化学习问题的基本思路：交互迭代策略和策略改善。
之后介绍了基于值（value）函数的强化学习方法和基于直接策略(policy)搜索的强化学习方法,在基于值函数的强化学习方法中，介绍了蒙特卡罗法、时间差分法和值函数逼近法。在基于直接策略搜索的强化学习方法中，介绍了策略梯度法、置信域策略法、确定性策略搜索法和引导策略搜索。
最后介绍了逆向强化学习方法和近年具有代表性、比较前沿的强化学习方法。

定义强化学习：

目标：解决决策优化问题。
所谓决策优化，是指面对特定状态（State，S），采取什么行动方案（Action，A），才能使收益最大（Reward，R）。
强化学习的演进，有两个轴线：一个是不断挑战更难的问题，不断从次优解向最优解逼近；另一个是在不严重影响算法精度的前提下，不断降低算法的计算成本。

马尔科夫决策

最简单的强化学习的数学模型，是马尔科夫决策过程（Markov Decision Process，MDP）之所以说MDP是一个简单的模型，是因为它对问题做了很多限制。
（ $s_{t}$ ：state-t, $a_{t}$ :action-t,）
1.面对的状态 $s_{t}$ ，数量是有限的。
2.采取的行动方案 $a_{t}$ ，数量也是有限的。
3.对应于特定状态 $s_{t}$ ，当下的收益rt是明确的。
4.在某一个时刻t，采取了行动方案 $a_{t}$ ，状态从当前的 $s_{t}$ 转换成下一个状态 $s_{t+1}$ 。下一个状态有多种可能，记为 $s^{i}_{t+1}$ ，i=1…n。
换句话说，面对局面 $s_{t}$ ，采取行动 $a_{t}$ ，下一个状态是 $s^{i}_{t+1}$ ，不是确定的，而是概率的，状态转换概率，记为P( $s^{i}_{t+1}$ | $s_{t}$ , $a_{t}$ )。但是状态转换只依赖于当前状态 $s_{t}$ ，而与先前的状态 $s_{t-1}$ ， $s_{t-2}$ …无关。

对马尔科夫决策过程的各项限制，不断放松，研究相应的算法，是强化学习的目标。
1.假如状态 $s_{t}$ 的数量，虽然有限，但是数量巨大，如何降低动态规划算法的计算成本；
2.假如状态 $s_{t}$ 的数量是无限的，现有动态规划算法失效，如何改进算法；
3.假如状态 $s_{t}$ 的数量不仅是无限的，而且取值不是离散的，是连续的，如何改进算法；
4.假如状态 $s_{t}$ 不能被完全观察到，只能被部分观察到，剩余部分被遮挡或缺失，如何改进算法；
5.假如状态 $s_{t}$ 完全不能被观察到，只能通过其他现象猜测潜在的状态，如何改进算法。
附：
作者的GitHub以及知乎专栏：
https://github.com/gxnk/reinforcement-learning-code
https://zhuanlan.zhihu.com/sharerl