DL学习笔记【22】增强学习(Reinforcement Learning)

据说了解增强学习首先要了解马尔可夫性


马尔可夫性

在已知目前状态 (现在)的条件下,它未来的演变(将来)不依赖于它以往的演变 (过去


马尔可夫过程按照其状态和时间参数是否连续或者离散分为三种:

  1. 时间和状态都离散的叫做马尔科夫链
  2. 时间和状态都是连续的叫做马尔科夫过程
  3. 时间连续,状态离散的叫做连续时间的马尔科夫链。


N步转移概率矩阵:

P(n)=P(n-1)P(1)=P(n-2)P(1)P(1)=......=P(1)^n

从一个状态经过n步到达其他状态的概率可以表示为矩阵形式,例如:


扫描二维码关注公众号,回复: 12995299 查看本文章

隐马尔可夫模型

三个骰子,分别为468面,根据18序列(可见状态),可以推测出使用的骰子序列(隐含序列)。

  1. 直接相乘求产生序列的最大概率
  2. 破解骰子序列,从第一个开始算,找最大概率的,然后算第二个,依次向后(这是向前算法),根据最后一个状态,依次推出前边的(这是向后算法)用于计算产生这个序列的所有可能情况的概率和
  3. 维特比算法用于计算产生可见状态的最有可能的隐含状态序列
  4. Baum-Welch 算法太复杂,没看


增强学习

下边两个教程很棒,先记录一下,自己的理解之后会补上。

epsilon  greed

http://blog.csdn.net/zjq2008wd/article/details/52860654

Q算法

http://blog.csdn.net/zjq2008wd/article/details/52767692

神经网络和增强学习

http://www.cnblogs.com/Leo_wl/p/5852010.html



猜你喜欢

转载自blog.csdn.net/Sun7_She/article/details/70482259