揭秘深度强化学习-3强化学习理论依据——马尔科夫决策过程

看完觉得深受启发的一篇文章,根据自己的理解翻译过来留以后再次翻看

原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

马尔科夫决策过程(Markov Decision Process)

现在我们来看看如何构造一个强化学习问题的公式。最常用的是基于马尔科夫决策过程(Markov decision process)。

让我们发散想象力,以打砖块游戏为例,帮助我们理解整个过程。想象你是一个智体(Agent),处于一个环境中(enviroment)——比如说打砖块游戏,你在这个环境中处于一种特定的状态(state)——比如说打砖块游戏中平板的位置,小球的方向和位置,每一个砖块的存在等,智体(Agent)可以在环境(enviroment)中行动(action)——比如说移动平板向左或向右,这些行为有时会获得奖励(Reward)——也就是消砖块获得分数,行动使环境由旧状态转变为新状态,此时智体又可以进行下一步行动,以此类推。智体(Agent)如何选择这些行为(action)的准则被称为策略(policy)。环境通常是随机的,这意味着下一状态可能也是随机的——比如说你输了一个球,获得一个新球时它是朝向随机方向的。

一组状态和行动(state,action),状态转换规则,获得奖励的方法:构成了一个完整的马尔科夫决策过程。一个周期的进程(比如一局游戏)构成了一个关于状态、行动和奖励的有限序列:

    s0,a0,r1,s1,a1,r2,s2,…,sn−1,an−1,rn,sn

在这里,si表示状态,ai表示行动,ri+1表示行为后获得奖励。这个周期以终结状态sn为终点(game over)。

来了解一下马尔科夫假设:下一状态si+1仅仅依赖于当前状态si和当前行动ai,与之前的状态和行为无关。马尔科夫决策过程正是基于这一假设。

猜你喜欢

转载自blog.csdn.net/qq_26690795/article/details/81507616