马尔可夫决策过程:MDP
一、MDP模型表示
首先引出马尔可夫决策过程的几个相关变量集合:A={at},S={st},R={rt+1},t=1,2,...T or ∞。A表示Action,S表示State,R表示Reward,这几个均是静态的随机变量,可以是离散的,也可以是连续的,所以用一个函数来表示这些随机变量之间的关系,由于马尔可夫决策过程是一个时间序列数据,所以这个函数可以用来表示这些变量的动态特性。
动态特性函数是一个描述 t+1 和 t 前后两个相邻时刻的随机变量间动态关系的条件概率 ,可以用符号表述为:Pr(s',r | s, a)
即 Pr(s',r | s, a) = Pr(St+1=s',Rt+1=r | St=s,At=a)。 【P:PROBABILITY ; R:RESTRICTED?】
二、决策
决策过程就是寻找最优策略的过程
=> 最优策略
=>分解成“策略”、“最优”、“寻找”三个关键字。
首先是策略(policy):在MDP中策略就是一系列的action组成的序列,如果时间从1~T,每个时刻的at有5个可能取值{a1,a2,a3,a4,a5},那么这个action序列就有5^T种可能。【策略一定是站在全局的角度上看么?还是可以截止到 t 时刻的策略?】
然后是最优,要判断最优肯定需要有个指标,在MDP中这个指标就是汇报Gt,
参考资料:
1.https://www.bilibili.com/video/BV1RA411q7wt?from=search&seid=4107546504069376636,shuhuai008.