【机器学习】HMM与CRF

HMM与CRF

隐马尔可夫

原理

代码实现

条件随机场

原理

条件随机场是从概率无向图(马尔可夫随机场)扩展得到的,概率无向图的联合概率分布$P(Y)$可由概率图中所有的最大团$C$上的势函数$\Psi_{C}(Y_{C})$的乘积形式表示,$Y_{C}$是$C$对应的随机变量,即

$$P(Y)=\frac{1}{Z} \prod_{C} \Psi_{C}(Y_{C})$$

其中$Z$是规范化因子,保证$P(Y)$是一个概率分布。函数$\Psi_{C}(Y_{C})$要保证是严格正的,且通常为定义为指数函数。

$$\Psi_{C}(Y_{C})=exp\left( -E(Y_{C}) \right)$$

条件随机场是给定随机变量$X$条件下,随机变量$Y$的马尔可夫随机场,这里介绍的是定义在线性链上的条件随机场,在标注问题中,$X$表示输入的观测序列,$Y$表示对应的输出标记序列或状态序列,如下图。

条件随机场的条件概率模型如下:

$$P(y|x)=\frac{1}{Z(x)}exp \left( \sum_{i,k} \lambda_{k}t_{k}(y_{i-1},y_{i},x,i) + \sum_{i,l}\mu_{l}s_{l}(y_{i},x,i) \right)$$

$t_{k}$是定义在边上的特征函数, 称为转移特征特征,依赖于当前位置和前一个位置,$s_{l}$是定义在结点上的特征函数,称为状态特征,依赖于当前位置。通常,特征函数$t_{k}$$s_{l}$取值为1或0,$ \lambda_{k}$和$\mu_{l}$是特征函数对应的权值。

条件随机场实际上是定义在时序数据上的对数线性模型

代码实现

面试问题

隐马三个基本问题:

(1)概率计算问题

给定模型和观测序列,求解在模型$\lambda$的条件下出现观测序列$O$的概率$P(O|\lambda)$。换言之,如何评估模型与观测序列之间的匹配度?

(2)学习问题

给定观测序列$O=(o_{1},o_{2},...,o_{T})$,估计模型参数$\lambda=(A,B,\pi)$,使得$P(O|\lambda)$最大。换言之,如何训练模型使其能最好地描述观测数据。

(3)预测问题

也称为解码问题。已知模型$\lambda$和观测序列$O$,求解最可能的状态序列$I=(i_{1},i_{2},...i_{T})$。换言之,如何根据观测序列来推测隐藏的状态序列。

解决三个问题的基本算法:

(1)前向后向算法

(2)Baum-Welch算法(EM)

(3)维特比算法

HMM、CRF与LR的关系

(1)CRF与LR都是对数线性模型,条件随机场是逻辑回归的序列化版本。逻辑回归是用于分类的对数线性模型,条件随机场是用于序列化标注的对数线性模型。

(2)HMM是生成式模型,LR与CRF是判别式模型

(3)HMM也可以做序列标注任务。每一个HMM模型都可以用CRF模型表示,但CRF可以定义数量更多,种类更丰富的特征函数,还可以对特征函数使用任意的权重。CRF比HMM要强大。

猜你喜欢

转载自www.cnblogs.com/4PrivetDrive/p/12141639.html