第十章隐马尔科夫模型

隐马尔科夫模型3个基本问题

隐马尔科夫模型有3个基本问题：
（1）概率计算问题。给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，计算在模型 $\lambda$ 下观测序列 $O$ 出现的概率 $P(O|\lambda)$ .
（2）学习问题.已知观测序列 $O=(o_1,o_2,...,o_T)$ ,估计模型 $\lambda=(A,B,\pi)$ 参数，使得在该模型下观测系列概率 $P(O|\lambda)$ 最大，即用极大似然估计的方法估计参数。
（3）预测问题，也称为解码问题。已知模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，求对给定观测序列条件概率 $P(I|O)$ 最大的状态序列 $I=(i_1,i_2,...,i_T)$ 。即给定观测序列，求最有可能的对应的状态序列。

前向算法

定义1（前向概率） 给定隐马尔科夫模型 $\lambda$ ，定义到时刻 $t$ 部分观测序列为 $o_1,o_2,...,o_t$ 且状态为 $q_i$ 的概率为前向概率，记作

\begin{matrix} (1) & α_{t} (i) = P (o_{1}, o_{2}, . . ., o_{t}, i_{t} = q_{i} | λ) \end{matrix}

$\alpha_t(i)=P(o_1,o_2,...,o_t,i_t=q_i|\lambda) \tag{1}$ 可以递推地求得前向概率

α_{t} (i)

$\alpha_t(i)$ 及观测序列概率

P (O | λ)

$P(O|\lambda)$ 。
算法1（观测序列概率的前向算法）
输入：隐马尔科夫模型

λ

$\lambda$ ，观测序列

O

$O$
输出：观测序列概率

P (O | λ)

$P(O|\lambda)$
（1）初值

\begin{matrix} (2) & α_{1} (i) = π_{i} b_{i} (o_{1}), i = 1, 2, . . ., N \end{matrix}

$\alpha_1(i)=\pi_ib_i(o_1),i=1,2,...,N \tag{2}$
（2）递推

$\quad$ 对

t = 1, 2, . . ., T - 1

$t=1,2,...,T-1$ ，

\begin{matrix} (3) & α_{t + 1} (i) = [\sum_{j = 1}^{N} α_{t} (j) a_{j i}] b_{i} (o_{t + 1}), i = 1, 2, . . ., N \end{matrix}

$\alpha_{t+1}(i)=\left[\sum_{j=1}^N \alpha_t(j)a_{ji}\right]b_i(o_{t+1}),i=1,2,...,N \tag{3}$
（3）终止

P (O | λ) = \sum_{i = 1}^{N} α_{T} (i)

$P(O|\lambda)=\sum_{i=1}^N\alpha_T(i)$

后向算法

定义2（后向概率） 给定隐马尔科夫模型 $\lambda$ ，定义在时刻 $t$ 状态为 $q_i$ 的条件下，从 $t+1$ 到 $T$ 的部分观测序列为 $o_{t+1},o_{t+2},...,o_T$ 的概率为后向概率，记作

\begin{matrix} (4) & β_{t} (i) = P (o_{t + 1}, o_{t + 2}, . . ., o_{T} | i_{t} = q_{i}, λ) \end{matrix}

$\beta_t(i)=P(o_{t+1},o_{t+2},...,o_T|i_t=q_i,\lambda) \tag{4}$ 可以用递推的方法求得后向概率

β_{t} (i)

$\beta_t(i)$ 及观测序列概率

P (O | λ)

$P(O|\lambda)$ 。
算法2（观测序列概率的后向算法）
输入：隐马尔科夫模型

λ

$\lambda$ ，观测序列

O

$O$
输出：观测序列概率

P (O | λ)

$P(O|\lambda)$
（1）

\begin{matrix} (5) & β_{T} (i) = 1, i = 1, 2, . . ., N \end{matrix}

$\beta_T(i) = 1,i=1,2,...,N \tag{5}$
（2）对

t = T - 1, T - 2, . . ., 1

$t=T-1,T-2,...,1$

\begin{matrix} (6) & β_{t} (i) = \sum_{j = 1}^{N} a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j), i = 1, 2, . . ., N \end{matrix}

$\beta_t(i)=\sum_{j=1}^N a_{ij}b_j(o_{t+1})\beta_{t+1}(j),i=1,2,...,N \tag{6}$
（3）

\begin{matrix} (7) & P (O | λ) = \sum_{i = 1}^{N} π_{i} b_{i} (o_{1}) β_{1} (i) \end{matrix}

$P(O|\lambda)=\sum_{i=1}^N\pi_ib_i(o_1)\beta_1(i) \tag{7}$

Baum-Welch算法

输入：观测数据 $O=(o_1,o_2,...,o_T)$
输出：隐马尔可夫模型参数
（1）初始化
对 $n=0$ ，选取 $a_{ij}^{(0)},b_j(k)^{(0)},\pi_{i}^{(0)},$ 得到模型 $\lambda^{(0)}=(A^{(0)},B^{(0)},\pi^{(0)})$
（2）递推。对 $n=1,2,...$

a_{i j}^{(n + 1)} = \frac{\sum_{t = 1}^{T - 1} ξ_{t} (i, j)}{\sum_{t = 1}^{T - 1} γ_{t} (i)}

$a_{ij}^{(n+1)}=\frac{\sum_{t=1}^{T-1}\xi_t(i,j)}{\sum_{t=1}^{T-1}\gamma_t(i)}$

b_{j} (k)^{(n + 1)} = \frac{\sum_{t = 1, 0_{t} = v_{k}}^{T} γ_{t} (j)}{\sum_{t = 1}^{T} γ_{t} (j)}

$b_{j}(k)^{(n+1)}=\frac{\sum_{t=1,0_t=v_k}^{T}\gamma_t(j)}{\sum_{t=1}^{T}\gamma_t(j)}$

π_{i}^{(n + 1)} = γ_{1} (i)

$\pi_i^{(n+1)}=\gamma_1(i)$
右端各值按观测

O = (o_{1}, o_{2}, . . ., o_{T})

$O=(o_1,o_2,...,o_T)$ 和模型

λ^{(n)} = (A^{(n)}, B^{(n)}, π^{(n)})

$\lambda^{(n)}=(A^{(n)},B^{(n)},\pi^{(n)})$ 计算。其中

γ_{t} (i) = \frac{α_{t} (i) β_{t} (i)}{\sum_{j = 1}^{N} α_{t} (j) β_{t} (j)}

$\gamma_t(i)=\frac{\alpha_t(i)\beta_t(i)}{\sum_{j=1}^N\alpha_t(j)\beta_t(j)}$

ξ_{t} (i, j) = \frac{α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)}{\sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)}

$\xi_t(i,j)=\frac{\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{\sum_{i=1}^N\sum_{j=1}^N\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}$
（3）终止。得到模型参数

λ^{(n + 1)} = (A^{(n + 1)}, B^{(n + 1)}, π^{(n + 1)})

$\lambda^{(n+1)}=(A^{(n+1)},B^{(n+1)},\pi^{(n+1)})$

维特比算法

输入：模型 $\lambda=(A,B,\pi)$ 和观测 $O=(o_1,o_2,...,o_T)$ ；
输出：最优路径 $I^*=(i_1^*,i_2^*,...,i_T^*)$
（1）初始化

δ_{1} (i) = π_{i} b_{i} (o_{1}), i = 1, 2, . . ., N

$\delta_1(i)=\pi_ib_i(o_1),i=1,2,...,N$

ψ_{1} (i) = 0, i = 1, 2, . . ., N

$\psi_1(i)=0,i=1,2,...,N$
（2）递推，对

t = 2, 3, . . ., T

$t=2,3,...,T$

δ_{t} (i) = max_{1 \leq j \leq N} [δ_{t - 1} (j) a_{j i}] b_{i} (o_{t}), i = 1, 2, . . ., N

$\delta_t(i)=\max_{1\leq j\leq N}[\delta_{t-1}(j)a_{ji}]b_i(o_t),i=1,2,...,N$

ψ_{t} (i) = a r g max_{1 \leq j \leq N} [δ_{t - 1} (j) a_{j i}], i = 1, 2, . . ., N

$\psi_t(i)=arg\max_{1\leq j\leq N}[\delta_{t-1}(j)a_{ji}],i=1,2,...,N$
（3）终止

P^{*} = max_{1 \leq i \leq N} δ_{T} (i)

$P^*=\max_{1\leq i\leq N}\delta_T(i)$

i_{T}^{*} = a r g max_{1 \leq i \leq N} [δ_{T} (i)]

$i_T^*=arg\max_{1\leq i\leq N}[\delta_T(i)]$
（4）最优路径回溯。对

t = T - 1, T - 2, . . ., 1

$t=T-1,T-2,...,1$

i_{t}^{*} = ψ_{t + 1} (i_{t + 1}^{*})

$i_t^*=\psi_{t+1}(i^*_{t+1})$ 求得最优路径

I^{*} = (i_{1}^{*}, i_{2}^{*}, . . ., i_{T}^{*})

$I^*=(i_1^*,i_2^*,...,i_T^*)$