强化学习入门简介

简介:

从最基本的马尔科夫决策过程入手,解决此类问题最基本的方法——动态规划方法。解决强化学习问题的基本思路:交互迭代策略和策略改善。
之后介绍了基于值(value)函数的强化学习方法和基于直接策略(policy)搜索的强化学习方法,在基于值函数的强化学习方法中,介绍了蒙特卡罗法、时间差分法和值函数逼近法。在基于直接策略搜索的强化学习方法中,介绍了策略梯度法、置信域策略法、确定性策略搜索法和引导策略搜索。
最后介绍了逆向强化学习方法和近年具有代表性、比较前沿的强化学习方法。

定义强化学习:

目标:解决决策优化问题。
所谓决策优化,是指面对特定状态(State,S),采取什么行动方案(Action,A),才能使收益最大(Reward,R)。
强化学习的演进,有两个轴线:一个是不断挑战更难的问题,不断从次优解向最优解逼近;另一个是在不严重影响算法精度的前提下,不断降低算法的计算成本。

马尔科夫决策

最简单的强化学习的数学模型,是马尔科夫决策过程(Markov Decision Process,MDP)之所以说MDP是一个简单的模型,是因为它对问题做了很多限制。
s t s_{t} :state-t, a t a_{t} :action-t,)
1.面对的状态 s t s_{t} ,数量是有限的。
2.采取的行动方案 a t a_{t} ,数量也是有限的。
3.对应于特定状态 s t s_{t} ,当下的收益rt是明确的。
4.在某一个时刻t,采取了行动方案 a t a_{t} ,状态从当前的 s t s_{t} 转换成下一个状态 s t + 1 s_{t+1} 。下一个状态有多种可能,记为 s t + 1 i s^{i}_{t+1} ,i=1…n。
换句话说,面对局面 s t s_{t} ,采取行动 a t a_{t} ,下一个状态是 s t + 1 i s^{i}_{t+1} ,不是确定的,而是概率的,状态转换概率,记为P( s t + 1 i s^{i}_{t+1} | s t s_{t} , a t a_{t} )。但是状态转换只依赖于当前状态 s t s_{t} ,而与先前的状态 s t 1 s_{t-1} s t 2 s_{t-2} …无关。

对马尔科夫决策过程的各项限制,不断放松,研究相应的算法,是强化学习的目标。
1.假如状态 s t s_{t} 的数量,虽然有限,但是数量巨大,如何降低动态规划算法的计算成本;
2.假如状态 s t s_{t} 的数量是无限的,现有动态规划算法失效,如何改进算法;
3.假如状态 s t s_{t} 的数量不仅是无限的,而且取值不是离散的,是连续的,如何改进算法;
4.假如状态 s t s_{t} 不能被完全观察到,只能被部分观察到,剩余部分被遮挡或缺失,如何改进算法;
5.假如状态 s t s_{t} 完全不能被观察到,只能通过其他现象猜测潜在的状态,如何改进算法。
附:
作者的GitHub以及知乎专栏:
https://github.com/gxnk/reinforcement-learning-code
https://zhuanlan.zhihu.com/sharerl

猜你喜欢

转载自blog.csdn.net/lyly1995/article/details/87932306