HMM、MEMM、CRF模型的比较

一、HMM

在这里插入图片描述
HMM属于生成模型,模型中2个假设:

  • 输出观测值 X i X_i 之间相互独立;
  • 齐次一阶Markov,即状态的转移过程中当前状态只与前一状态有关。

二、MEMM

在这里插入图片描述
P ( I O ) = t = 1 n exp ( a ) λ a f a ( o , i ) Z ( o , i i 1 ) , i = 1 , , n P(I | O)=\prod_{t=1}^{n} \frac{\exp \left(\sum_{a}\right) \lambda_{a} f_{a}(o, i)}{Z\left(o, i_{i-1}\right)}, i=1, \cdots, n
求和的作用在概率中是归一化,但是这里归一化放在了指数内部,管这叫local归一化。 来了,viterbi求解过程,是用dp的状态转移公式(MEMM的没展开,请参考CRF下面的公式),因为是局部归一化,所以MEMM的viterbi的转移公式的第二部分出现了问题,导致dp无法正确的递归到全局的最优。
δ i + 1 = max 1 j m { δ i ( I ) + i T k M λ k f k ( O , I i 1 , I i , i ) } \delta_{i+1}=\max _{1 \leq j \leq m}\left\{\delta_{i}(I)+\sum_{i}^{T} \sum_{k}^{M} \lambda_{k} f_{k}\left(O, I_{i-1}, I_{i}, i\right)\right\}

  • MEMM模型属于判别模型,打破了观察值之间相互独立产生的问题,但是由于状态之间的假设理论,MEMM倾向于选择拥有更少转移的状态,使得该模型存在 标注偏置问题(label bias problem)

三、CRF(Conditional Random Field)

在这里插入图片描述
从概率图可以很形象的看出一个区别:
HMM是有向图,严格定义了y的有序性,只能从左至右。CRF是无向图,y无序,可左可右。HMM是生成模型,通过求联合概率获得;CRF是判别模型,通过条件概率求得。在如词性标注上的应用中CRF更合理,因为它直接求某个标注的概率,而HMM需要先算联合概率再转而求目标的概率。
对于所谓的条件随机场的理解:

  • 条件:属于生成模型
  • 随机场:无向图模型
    CRF模型属于判别模型,解决了标注偏置问题,去除了HMM中两个不合理的假设,当然,模型相应得也变复杂了。
    CRF建模公式如下,整个过程的推导可以结合这个词性标注的案例更好理解 :CRF词性标注
    P ( I O ) = 1 Z ( O ) i ψ i ( I i O ) = 1 Z ( O ) i e k λ k f k ( O , l i 1 , I i , i ) = 1 Z ( O ) e i k λ k f k ( O , I i 1 , I i , i ) P(I | O)=\frac{1}{Z(O)} \prod_{i} \psi_{i}\left(I_{i} | O\right)=\frac{1}{Z(O)} \prod_{i} e^{\sum_{k} \lambda_{k} f_{k}\left(O, l_{i-1}, I_{i}, i\right)}=\frac{1}{Z(O)} e^{\sum_{i} \sum_{k} \lambda_{k} f_{k}\left(O, I_{i-1}, I_{i}, i\right)}
    因为是判别模型,所以直接为了确定边界而去建模,因为创造出来就是为了这个分边界的目的。比如说序列求概率(分类)问题,直接考虑找出函数分类边界。所以才为什么会有这个公式。所以再看到这个公式也别懵逼了。

除了建模总公式,关键的CRF重点概念与MEMM类似:判别式模型、特征函数。

发布了32 篇原创文章 · 获赞 32 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/weixin_43199584/article/details/102024219