强化学习:MDP:决策、最优决策、回报、价值函数概念引出

马尔可夫决策过程:MDP

一、MDP模型表示

首先引出马尔可夫决策过程的几个相关变量集合:A={at},S={st},R={rt+1},t=1,2,...T or ∞。A表示Action,S表示State,R表示Reward,这几个均是静态的随机变量,可以是离散的,也可以是连续的,所以用一个函数来表示这些随机变量之间的关系,由于马尔可夫决策过程是一个时间序列数据,所以这个函数可以用来表示这些变量的动态特性

动态特性函数是一个描述 t+1 和 t 前后两个相邻时刻随机变量间动态关系条件概率 ,可以用符号表述为:Pr(s',r | s, a)

即 Pr(s',r | s, a) = Pr(St+1=s',Rt+1=r | St=s,At=a)。    【P:PROBABILITY ; R:RESTRICTED?】

二、决策

决策过程就是寻找最优策略的过程

=> 最优策略

=>分解成“策略”、“最优”、“寻找”三个关键字。

首先是策略(policy):在MDP中策略就是一系列的action组成的序列,如果时间从1~T,每个时刻的at有5个可能取值{a1,a2,a3,a4,a5},那么这个action序列就有5^T种可能。【策略一定是站在全局的角度上看么?还是可以截止到 t 时刻的策略?】

然后是最优,要判断最优肯定需要有个指标,在MDP中这个指标就是汇报Gt,

参考资料:

1.https://www.bilibili.com/video/BV1RA411q7wt?from=search&seid=4107546504069376636,shuhuai008.

猜你喜欢

转载自www.cnblogs.com/feynmania/p/13367991.html