自然语言处理系列之隐马尔可夫模型（HMM）

定义
设 $Q$ 是所有可能的状态的集合，V是所有可能的观测的集合。

$Q = {q 1, q 2, . . ., q N}, V = {v 1, v 2, . . ., v M}$ $Q=\{q_1,q_2,...,q_N\},V=\{v_1,v_2,...,v_M\}$
其中， $N$ 是可能的状态数， $M$ 是可能的观测数。
状态 $q$ 是不可见的，观测 $v$ 是可见的。应用到词性标注系统，词就是 $v$ ，词性就是 $q$ 。
$I$ 是长度为 $T$ 的状态序列， $O$ 是对应的观测序列。
$I = {i 1, i 2, . . ., i T}, O = {o 1, o 2, . . ., o T}$ $I=\{i_1,i_2,...,i_T\},O=\{o_1,o_2,...,o_T\}$
$A$ 为状态转移概率矩阵：
$A = [a i j] N \times N$ $A=\left[a_{ij}\right]_{N\times N}$
其中，
$a i j = P (i t + 1 = q j | i t = q i), i = 1, 2, . . ., N; j = 1, 2, . . ., N$ $a_{ij}=P(i_{t+1}=q_j|i_t=q_i), i=1,2,...,N;j=1,2,...,N$
是在时刻 $t$ 处于状态 $q_i$ 的条件下在时刻 $t+1$ 转移到状态 $q_j$ 的概率。
这实际在表述一个一阶的HMM，所作的假设是每个状态只跟前一个状态有关。
$B$ 是观测概率矩阵:
$B = [b j (k)] N \times M$ $B=\left[b_j(k)\right]_{N\times M}$
其中，
$b j (k) = P (o t = v k | i t = q j), k = 1, 2, . . ., M; j = 1, 2, . . ., N$ $b_j(k)=P(o_t=v_k|i_t=q_j), k=1,2,...,M;j=1,2,...,N$
是在时刻t处于状态qj的条件下生成观测vk的概率（也就是所谓的“发射概率”）。
这实际上在作另一个假设，观测是由当前时刻的状态决定的，跟其他因素无关，这有点像Moore自动机。
π是初始状态概率向量：
$π = (π i)$ $\pi=(\pi_i)$
其中， $π = P (i 1 = q i), i = 1, 2, . . ., N$ $\pi=P(i_1=q_i),i=1,2,...,N$
是时刻t=1处于状态 $q_j$ 的概率。
隐马尔可夫模型由初始状态概率向量 $\pi$ 、状态转移概率矩阵A和观测概率矩阵 $B$ 决定, $\pi$ 和 $A$ 决定状态序列， $B$ 决定观测序列。因此，隐马尔可夫模型 $\lambda$ 可以用三元符号表示，即
$λ = {A, B, π}$ $\lambda=\{A,B,\pi\}$
状态转移概率矩阵 $A$ 与初始状态概率向量 $\pi$ 确定了隐藏的马尔可夫链，生成不可观测的状态序列。观测概率矩阵 $B$ 确定了如何从状态成观测，与状态序列综合确定了如何产生观测序列。
从定义可知，隐马尔可夫模型作了两个基本假设：
(1)齐次马尔可夫性假设，即假设隐藏的马尔可夫链在任意时刻 $t$ 的状态只依赖于其前一时刻的状态，与其他时刻的状态及观测无关。
$P (i t | i t - 1, o t - 1, . . ., i 1, 01) = P (i t | i t - 1), t = 1, 2, . . ., T$ $P(i_t|i_{t-1},o_{t-1},...,i_1,0_1)=P(i_t|i_{t-1}),t=1,2,...,T$
从上式左右两边的复杂程度来看，齐次马尔可夫性假设简化了许多计算。
(2)观测独立性假设，即假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态，与其他观测及状态无关。
$P (o t | i t, o T, i T - 1, o T - 1, . . ., i t + 1, o t + 1, i t, o t, . . ., i 1, o 1) = P (o t | i t)$ $P(o_t|i_t,o_T,i_{T-1},o_{T-1},...,i_{t+1},o_{t+1},i_t,o_t,...,i_1,o_1)=P(o_t|i_t)$
简化了计算。
推倒

$P (i 1, i 2, . . ., i n | o 1, o 2, . . ., o n) = P ( o 1 , o 2 , . . . , o n | i 1 , i 2 , . . . , i n ) * P ( i 1 , i 2 , . . . , i n ) P ( o 1 , o 2 , . . . , o n ) (1 - 1) \to P (o 1, o 2, . . ., o n | i 1, i 2, . . ., i n) * P (i 1, i 2, . . ., i n) (1 - 2) \to \prod j = 1 n p (o j | i j) P (i j + 1 | i j) (1 - 3)$ $\begin{align} P(i_1,i_2,...,i_n|o_1,o_2,...,o_n)&=\frac{P(o_1,o_2,...,o_n|i_1,i_2,...,i_n)*P(i_1,i_2,...,i_n)}{P(o_1,o_2,...,o_n)}(1-1)\\ &\rightarrow {P(o_1,o_2,...,o_n|i_1,i_2,...,i_n)}\ast{P(i_1,i_2,...,i_n)}(1-2)\\ &\rightarrow \prod_{j=1}^np(o_j|i_j)P(i_{j+1}|i_j)(1-3) \end{align}$
由于 $P(o_1,o_2,...,o_n)$ 是常量,所以求式1-1的问题可以转化为求式1-2的问题。
由假设1和2可把求式1-2的问题转化为求式1-3的问题。
由上可知，隐马尔的求解问题可以转化为求：
$m a x (\prod j = 1 n p (o j | i j) P (i j + 1 | i j)$ $max(\prod_{j=1}^np(o_j|i_j)P(i_{j+1}|i_j)$
求解上述问题有两种方式，一种是枚举，当状态的集合和观测结合特别大时，这种方法显然不可行。一种可以有效求解的方法就是 Viterbi 算法，下一章节将用这个算法来进行求解。
参考资料：《统计机器学习》，李航

自然语言处理系列之隐马尔可夫模型（HMM）

猜你喜欢