Udacity强化学习系列(二)—— 马尔科夫决策过程(Markov Decision Processes)

版权声明:博客为作者平时学习备忘,参考资料已在文尾列出一并表示感谢。如若转载,请列明出处。 https://blog.csdn.net/woai8339/article/details/82725128

说到马尔科夫Markov,大家可能都不陌生,陌生的链接往里走
Markov决策一般场景我们仍然按Udacity强化学习系列(一)中的例子来说。
Markov
上图一共有四个要素,状态,模型,行为和奖励,共同构成了这个单一智能体的增强学习。这个构成的单一智能体的增强学习我们称作Markov决策过程。
状态S:可以对应到网格的各个位置,一个位置即为一个状态,那么一共就有12个状态,这12个状态我们可以用坐标(X,Y)表示,也可以用12个不同数字或者字母来表示,这个随你。
模型Model:model也叫transfer function(转换函数)。它是一个三个变量(一个状态s,一个动作a和另一个状态s’)的函数,代表着正在进行博弈的规则。求解在状态s和动作a的情况下转换成为另一个状态s’的概率。(这里用到马尔科夫特性,也就是两个假设:1)仅仅取决于当前状态s; 2)规则不变性,
动作action:被定义的智能体所允许做的事情,在网格中的上下左右。
奖励:R(s),R(s,a),R(s,a,s’)
这里写图片描述

猜你喜欢

转载自blog.csdn.net/woai8339/article/details/82725128
今日推荐