简介:
从最基本的马尔科夫决策过程入手,解决此类问题最基本的方法——动态规划方法。解决强化学习问题的基本思路:交互迭代策略和策略改善。
之后介绍了基于值(value)函数的强化学习方法和基于直接策略(policy)搜索的强化学习方法,在基于值函数的强化学习方法中,介绍了蒙特卡罗法、时间差分法和值函数逼近法。在基于直接策略搜索的强化学习方法中,介绍了策略梯度法、置信域策略法、确定性策略搜索法和引导策略搜索。
最后介绍了逆向强化学习方法和近年具有代表性、比较前沿的强化学习方法。
定义强化学习:
目标:解决决策优化问题。
所谓决策优化,是指面对特定状态(State,S),采取什么行动方案(Action,A),才能使收益最大(Reward,R)。
强化学习的演进,有两个轴线:一个是不断挑战更难的问题,不断从次优解向最优解逼近;另一个是在不严重影响算法精度的前提下,不断降低算法的计算成本。
马尔科夫决策
最简单的强化学习的数学模型,是马尔科夫决策过程(Markov Decision Process,MDP)之所以说MDP是一个简单的模型,是因为它对问题做了很多限制。
(
:state-t,
:action-t,)
1.面对的状态
,数量是有限的。
2.采取的行动方案
,数量也是有限的。
3.对应于特定状态
,当下的收益rt是明确的。
4.在某一个时刻t,采取了行动方案
,状态从当前的
转换成下一个状态
。下一个状态有多种可能,记为
,i=1…n。
换句话说,面对局面
,采取行动
,下一个状态是
,不是确定的,而是概率的,状态转换概率,记为P(
|
,
)。但是状态转换只依赖于当前状态
,而与先前的状态
,
…无关。
对马尔科夫决策过程的各项限制,不断放松,研究相应的算法,是强化学习的目标。
1.假如状态
的数量,虽然有限,但是数量巨大,如何降低动态规划算法的计算成本;
2.假如状态
的数量是无限的,现有动态规划算法失效,如何改进算法;
3.假如状态
的数量不仅是无限的,而且取值不是离散的,是连续的,如何改进算法;
4.假如状态
不能被完全观察到,只能被部分观察到,剩余部分被遮挡或缺失,如何改进算法;
5.假如状态
完全不能被观察到,只能通过其他现象猜测潜在的状态,如何改进算法。
附:
作者的GitHub以及知乎专栏:
https://github.com/gxnk/reinforcement-learning-code
https://zhuanlan.zhihu.com/sharerl