HMM学习笔记（二）：监督学习方法与Baum-Welch算法

学习隐马尔可夫模型（HMM），主要就是学习三个问题：概率计算问题，学习问题和预测问题。在前面讲了概率计算问题：前后向算法推导，这里接着讲学习问题，即求模型 $\lambda=(\pi,A,B)$ 的参数，以下分为监督学习和非监督学习来讲学习算法。

记： $Q=\{q_1,q_2,...,q_N\}$ 表示所有可能的状态集合， $V=\{v_1,v_2,...,v_M\}$ 表示所有可能的观测集合。

$I=\{i_1,i_2,...,i_T\}$ 表示状态序列， $O=\{o_1,o_2,...,o_N\}$ 为对应的观测序列。

监督学习方法

假设给定训练集包含了观测序列 $O$ 和状态序列 $I$ （长度均为 $T$ ），即 $\{(O_1,I_1),(O_2,I_2),...,(O_S,I_S)\}$ 。那么模型 $\lambda=(\pi,A,B)$ 参数的求得可以根据伯努利大数定理的结论 “频率的极限是概率”来给出HMM的参数。

伯努利大数定理：设 $\mu$ 是 $n$ 次试验中A发生的次数，一次试验中A发生的概率为 $p$ ，则对任意正数 $\varepsilon$ 有：

$\lim \limits_{n->+\infty}P(|\frac{\mu}{n}-p|<\varepsilon)=1$

这个式子说明了，当 $n$ 趋近于无穷的时候，频率等于概率。那么以下直接写出模型参数。

（1）、 $\overline{\pi}_i=\frac{A_i}{\sum\limits_{i=1}^{N}A_i}$

其中 $A_i$ 表示初始时刻 $t=1$ ，状态为 $q_i$ 的频数。

（2）、 $\overline{a}_{ij}=\frac{A_{ij}}{\sum\limits_{j=1}^{N}A_{ij}}$

其中 $A_{ij}$ 表示时刻 $t$ 状态为 $q_i$ 到时刻 $t+1$ 状态为 $q_j$ 的频数。

（3）、 $\overline{b}_i(k)=\frac{B_{ik}}{\sum\limits_{k=1}^{M}B_{ik}}$

其中 $B_{ik}$ 表示 $t$ 时刻，状态为 $q_i$ 观测为 $v_k$ 的频数。

Baum-Welch算法

Baum-Welch算法其实就是EM算法，用来求HMM，下面统统用EM来说。
如果训练数据只有观测序列而没有状态序列，即 $\{O_1,O_2,...,O_S\}$ 此时HMM的学习就得使用EM算法了，这是非监督学习。

通常，如果给定数据和已经模型，那么求模型参数我们会用极大似然估计法，但是如果变量中含有隐变量，无法用极大似然求解（对数式子里面有求和，难以求出解析解），此时就可以使用EM算法。考虑HMM，观测序列 $O$ 是显变量，而状态变量 $I$ 则是隐变量，所以HMM实际上是含有隐变量的概率模型

$P(O|\lambda)=\sum\limits_{I}P(O|I,\lambda)P(I|\lambda)$

所以可以使用EM算法来求得模型参数，关于EM算法参考从极大似然估计推出EM算法。

关于EM算法流程，有多个版本，但是仔细学习可以发现是大同小异的，以下使用《统计学习方法》上介绍的EM算法流程。

首先，给定参数初值 $\lambda_0=(\pi_0,A_0,B_0)$
E步：写 $Q$ 函数

$Q(\lambda|\overline{\lambda})=\sum\limits_{I}P(I|O,\overline{\lambda})logP(O,I|\lambda)=\sum\limits_{I}\frac{P(O,I|\overline{\lambda})}{P(O|\overline{\lambda})}logP(O,I|\lambda)$

由于 $P(O|\overline{\lambda})$ 是个常数，将其去掉得到：

$Q(\lambda|\overline{\lambda})=\sum\limits_{I}P(O,I|\overline{\lambda})logP(O,I|\lambda)$

又因为 $P(O,I|\lambda)=\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}...a_{i_{T-1}i_{T}}b_{i_T}(o_T)=\pi_{i_1}\prod\limits_{t=1}^{T-1}a_{i_ti_{t+1}}\prod\limits_{t=1}^{T}b_{i_t}(o_t)$ （关于这个式子在这篇概率计算问题：前后向算法推导中，直接计算方法中介绍了，实际是根据贝叶斯网络和HMM假设得出），带入到 $Q$ 函数中，得到：

$Q(\lambda|\overline{\lambda})=\sum\limits_{I}P(O,I|\overline{\lambda})log[\pi_{i_1}\prod\limits_{t=1}^{T-1}a_{i_ti_{t+1}}\prod\limits_{t=1}^{T}b_{i_t}(o_t)]\\=\sum\limits_{I}log\pi_{i_1}P(O,I|\overline{\lambda})+\sum\limits_{I}(\sum\limits_{t=1}^{T-1}loga_{i_tj_{t+1}})P(O,I|\overline{\lambda})+\sum\limits_{I}(\sum\limits_{t=1}^{T}logb_{i_t}(o_t))P(O,I|\overline{\lambda})$

注意到这个式子三项是分别关于 $\pi_i,a_{ij}和b_j(k)$ 的，只需要分别计算即可。

（1）、求 $\pi$

$\sum\limits_{I}log\pi_{i_1}P(O,I|\overline{\lambda})=\sum\limits_{I}log\pi_{i_1}P(O,i_1,i_2,...,i_T|\overline{\lambda})$

如果我们将这个式子完全展示的话， $\sum\limits_{I}$ 实际上是 $T$ 层求和，分别关于 $i_1，i_2,...,i_T$ 的取值，均有 $N$ 种取值。 $i_1$ 有 $N$ 种取值，那么 $log\pi_{i_1}$ 也是 $N$ 种取值，方便起见假设 $i_1=q_5$ ，那么 $P(O,q_5,i_2,...,i_T|\overline{\lambda})$ 不管有多少种取值，展开后求和关于为 $log\pi_{5}$ 的项为 $log\pi_{5}[\sum\limits_{i_2,...,i_T}P(O,q_5,i_2,...,i_T|\overline{\lambda})]$ ，根据全概率公式（将 $i_2,...,i_T$ 看成一项即可）得到
$[\sum\limits_{i_2,...,i_T}P(O,q_5,i_2,...,i_T|\overline{\lambda})]=P(O,q_5|\overline{\lambda})$ ，所以展开后求和关于为 $log\pi_{5}$ 的项为 $log\pi_{5}P(O,q_5|\overline{\lambda})$ ，所以有：

$\sum\limits_{I}log\pi_{i_1}P(O,I|\overline{\lambda})=\sum\limits_{I}log\pi_{i_1}P(O,i_1,i_2,...,i_T|\overline{\lambda})\\=\sum\limits_{i=1}^{N}log\pi_iP(O,i_1=i|\overline{\lambda})$

其中 $i_1=i$ 也就是 $i_1=q_i$ ,只是为了方便才那样写了。

注意到： $\sum\limits_{i=1}^{N}\pi_i=1$ ，构造拉格朗日函数

$L=\sum\limits_{i=1}^{N}log\pi_iP(O,i_1=i|\overline{\lambda})+\alpha[\sum\limits_{i=1}^{N}\pi_i-1]$

对 $\pi_i$ 求导，令导数为0

$\frac{\partial L}{\partial \pi_i}=\frac{P(O,i_1=i|\overline{\lambda})}{\pi_i}+\alpha=0$
$=>P(O,i_1=i|\overline{\lambda})=-\alpha\pi_i$ （1）
两边求和( $\sum\limits_{i=1}^{N}$ )
$-\alpha=\sum\limits_{i=1}^{N}P(O,i_1=i|\overline{\lambda})=P(O|\overline{\lambda})$ ，带入到（1）式，得到：

$\pi_i=\frac{P(O,i_1=i|\overline{\lambda})}{P(O|\overline{\lambda})}$

（2）、求 $a_{ij}$

同样地第二项：
$\sum\limits_{I}(\sum\limits_{t=1}^{T-1}loga_{i_tj_{t+1}})P(O,I|\overline{\lambda})=\sum\limits_{i=1}^{N}\sum\limits_{i=1}^{N}\sum\limits_{t=1}^{T-1}loga_{ij}P(O,i_t=i,i_{t+1}=j|\overline{\lambda})$

约束条件是 $\sum\limits_{j=1}^{N}a_{ij}=1$ ，同样使用拉格朗日乘子法得到：

$a_{ij}=\frac{\sum\limits_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\overline{\lambda})}{\sum\limits_{t=1}^{T-1}P(O,i_t=i|\overline{\lambda})}$

（3）、求 $b_j(k)$

同样地，第三项：

$\sum\limits_{I}(\sum\limits_{t=1}^{T}logb_{i_t}(o_t))P(O,I|\overline{\lambda})=\sum\limits_{i=1}^{N}\sum\limits_{t=1}^{T}logb_{i}(o_t)P(O,i_t=i|\overline{\lambda})$

约束条件是 $\sum\limits_{k=1}^{M}b_i(k)=1$ ，还是使用拉格朗日乘子法，得到

$b_i(k)=\frac{\sum\limits_{t=1}^{T}P(O,i_t=i|\overline{\lambda})I(o_t=v_k)}{\sum\limits_{t=1}^{T}P(O,i_t=i|\overline{\lambda})}$

$I(o_t=v_k)$ 为指示函数， $I(true)=1,I(false)=0$ ，因为只有在 $o_t=v_k$ 时候， $b_i(o_t)$ 对 $b_i(k)$ 求导才不为0。

在概率计算问题：前后向算法推导中，最后推导了一些结论，直接用在这里来表示这些模型参数吧。

$\pi_i=\gamma_1(i)$

$a_{ij}=\frac{\sum\limits_{t=1}^{T-1}\xi_t(i,j)}{\sum\limits_{t=1}^{T-1}\gamma_t(i)}$

$b_i(k)=\frac{\sum\limits_{t=1,o_t=v_k}^{T}\gamma_t(i)}{\sum\limits_{t=1}^{T}\gamma_t(i)}$