EM算法原理分析

EM算法主要用于含有隐藏变量的参数估计问题。
在将EM算法之前，先讲一下Jensen不等式。
定理：假设f是一个凸函数，X是随机变量，即：

E [f (X)] \geq f (E X)

$E[f(X)]\ge f(EX)$
此外，如果f是严格凸的，当且仅当

X = E [X] = 常 数 （ 不 再 是 随 机 变 量 ） 时 E [f (X)] = f (E X)

$X=E[X]=常数（不再是随机变量）时E[f(X)]=f(EX)$ .
不理解的可以看下面的图：
这里写图片描述

是不是一目了然？简单解释一下：假设X是一个随机变量，有0.5的概率落在a点，有0.5的概率落在b点，因此X的期望

E [X]

$E[X]$ 便落在a,b 的中点处。根据f是凸函数，我们可以在图上画出

f (a), f (b), f (E [X])

$f(a),f(b),f(E[X])$ 的位置，而

E [f (X)]

$E[f(X)]$ 则落在

f (a), f (b)

$f(a),f(b)$ 的中点处。
由上图可知，因为f是凸函数，所以有

E [f (X)] \geq f (E X)

$E[f(X)]\ge f(EX)$ 。同理，如果f是凹函数，则有

E [f (X)] \leq f (E X)

$E[f(X)]\le f(EX)$ 。
EM算法
假设我们有m个独立样本(独立性假设)

{x^{(1)}, . . ., x^{(m)}}

$\{x^{(1)},...,x^{(m)}\}$ ,给定以下似然函数：

l (θ) = \sum_{i = 1}^{m} l o g p (x; θ) = \sum_{i = 1}^{m} l o g \sum_{z} p (x, z; θ)

$l(\theta)=\sum_{i=1}^mlog \ p(x;\theta)=\sum_{i=1}^mlog\sum_{z}p(x,z;\theta)$
我们希望求出模型

p (x, z)

$p(x,z)$ 的参数

θ

$\theta$ . 然而，由于存在隐藏变量

z

$z$ ,

θ

$\theta$ 的求解是很困难的，如果能够提前得到

z

$z$ ,那么最大似然估计将变得简单起来。（请记住这一点，因为后面的EM算法的E步其实就相当于给z做了一个先验假设，然后再做优化）
对于每个样本i，假设

Q_{i}

$Q_i$ 是关于z的分布（

\sum_{z} Q_{i} (z) = 1, Q_{i} (z) \geq 0

$\sum_zQ_i(z)=1,Q_i(z)\ge0$ ）,因此可得到下列不等式：

\begin{aligned} (1) & l (θ) & = \sum_{i = 1}^{m} l o g p (x^{(i)}; θ) \\ (2) & = \sum_{i = 1}^{m} l o g \sum_{z^{(i)}} p (x^{(i)}, z^{(i)}; θ) \\ (3) & = \sum_{i = 1}^{m} l o g \sum_{z^{(i)}} Q_{i} (z^{(i)}) \frac{p (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})} \\ (4) & \geq \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{p (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})} \end{aligned}

$\begin{align} l(\theta)&=\sum_{i=1}^mlog \ p(x^{(i)};\theta)\\ &=\sum_{i=1}^mlog\sum_{z^{(i)}}p(x^{(i)},z^{(i)};\theta) \\ & = \sum_{i=1}^mlog\sum_{z^{(i)}}Q_i(z^{(i)}) {p(x^{(i)},z^{(i)};\theta)\over Q_i(z^{(i)})}\\ & \ge \sum_{i=1}^m \sum_{z^{(i)}} Q_i(z^{(i)})log{p(x^{(i)},z^{(i)};\theta)\over Q_i(z^{(i)})} \end{align}$
最后一步怎么得来的呢？其实就是用到了Jensen不等式。特别的，

f (x) = l o g x

$f(x)=log \ x$ 是一个凹函数，因为

f^{^{″}} (x) = \frac{- 1}{x^{2}} < 0

$f^{''}(x)={-1\over x^2}<0$ .因此有

E [f (x)] \leq f (E (x))

$E[f(x)]\le f(E(x))$ ，其中自变量x为

\frac{p (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})}

${p(x^{(i)},z^{(i)};\theta)\over Q_i(z^{(i)})}$ ,代入得：

f (E_{z^{(i)} \sim Q_{i}} [\frac{p (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})}]) \geq E_{z^{(i)} \sim Q_{i}} [f (\frac{p (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})})]

$f(E_{z^{(i)}\sim Q_i}[{p(x^{(i)},z^{(i)};\theta)\over Q_i(z^{(i)})}])\ge E_{z^{(i)}\sim Q_i}[f({p(x^{(i)},z^{(i)};\theta)\over Q_i(z^{(i)})})]$ .
综上便可得到上文所述不等式。
那么，不等式什么时候取等号呢？其实上文的定理已经提到了，当自变量为常数时等号成立，对应到我们得不等式中，即：

\frac{p (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})} = c

${p(x^{(i)},z^{(i)};\theta)\over Q_i(z^{(i)})}=c$ .
事实上，我们知道

\sum_{z} Q_{i} (z) = 1

$\sum_zQ_i(z)=1$ ,因此我们可以得到下面得推导：

\begin{aligned} (5) & Q_{i} (z^{(i)}) & = \frac{p (x^{(i)}, z^{(i)}; θ)}{\sum_{z} p (x^{(i)}, z; θ)} \\ (6) & = \frac{p (x^{(i)}, z^{(i)}; θ)}{p (x^{(i)}; θ)} \\ (7) & = p (z^{(i)} | x^{(i)}; θ) \end{aligned}

$\begin{align} Q_i(z^{(i)})&={p(x^{(i)},z^{(i)};\theta)\over \sum_zp(x^{(i)},z;\theta)} \\ & = {p(x^{(i)},z^{(i)};\theta)\over p(x^{(i)};\theta)}\\ & = p(z^{(i)}|x^{(i)};\theta) \end{align}$
也就是说，我们可以简单设置

Q_{i}

$Q_i$ 为在参数

θ

$\theta$ 下给定

x^{(i)}

$x^{(i)}$ 时，关于

z^{(i)}

$z^{(i)}$ 的后验分布。
因此，我们可以得到EM算法的迭代过程如下：
循环以下两步直到收敛{
（E-step）对于每个样本i,

Q_{i} (z^{(i)}) := p (z^{(i)} | x^{(i)}; θ) .

$Q_i(z^{(i)}):=p(z^{(i)}|x^{(i)};\theta).$
（M-step）

θ := a r g m a x_{θ} \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{p (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})} .

$\theta:=argmax_\theta \sum_{i=1}^m \sum_{z^{(i)}} Q_i(z^{(i)})log{p(x^{(i)},z^{(i)};\theta)\over Q_i(z^{(i)})}.$
}
那么我们怎么知道EM算法是否收敛呢？我们假设

θ (t) 和 θ (t + 1)

$\theta(t)和\theta(t+1)$ 为迭代过程中的参数，那么我们只要证明

l (θ (t)) \leq l (θ (t + 1))

$l(\theta(t))\le l(\theta(t+1))$ ,那么就可以得到EM算法是在不断优化，直至收敛。顺着这个思想，我们假设

Q_{i} (z^{(i)}) := p (z^{(i)} | x^{(i)}; θ)

$Q_i(z^{(i)}):=p(z^{(i)}|x^{(i)};\theta)$ ,此时

l (θ^{(t)}) = \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{p (x^{(i)}, z^{(i)}; θ^{(t)})}{Q_{i} (z^{(i)})}

$l(\theta^{(t)})=\sum_{i=1}^m \sum_{z^{(i)}} Q_i(z^{(i)})log{p(x^{(i)},z^{(i)};\theta^{(t)})\over Q_i(z^{(i)})}$
参数

θ^{(t + 1)}

$\theta^{(t+1)}$ 通过最大化等式右边的式子获得，因此：

\begin{aligned} (8) & θ^{(t + 1)} & \geq \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{p (x^{(i)}, z^{(i)}; θ^{(t + 1)})}{Q_{i} (z^{(i)})} \\ (9) & \geq \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{p (x^{(i)}, z^{(i)}; θ^{(t)})}{Q_{i} (z^{(i)})} \\ (10) & = l (θ^{(t)}) \end{aligned}

$\begin{align} \theta^{(t+1)}&\ge \sum_{i=1}^m \sum_{z^{(i)}} Q_i(z^{(i)})log{p(x^{(i)},z^{(i)};\theta^{(t+1)})\over Q_i(z^{(i)})}\\ &\ge \sum_{i=1}^m \sum_{z^{(i)}} Q_i(z^{(i)})log{p(x^{(i)},z^{(i)};\theta^{(t)})\over Q_i(z^{(i)})}\\ &=l(\theta^{(t)}) \end{align}$

当 $\theta$ 为 $\theta^{(t+1)}$ 时， ${p(x^{(i)},z^{(i)};\theta^{(t+1)})\over Q_i^{(t)}(z^{(i)})}$ 不一定为常数了，所以等号不一定成立，因此上述第一个式子为大于等于。
至于第二个不等式，由EM算法的M步可知， $\theta^{(t+1)}$ 是通过最大化上一步的函数值得到的，即：

θ^{(t + 1)} := a r g m a x_{θ} \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{p (x^{(i)}, z^{(i)}; θ^{(t)})}{Q_{i} (z^{(i)})} .

$\theta^{(t+1)}:=argmax_\theta \sum_{i=1}^m \sum_{z^{(i)}} Q_i(z^{(i)})log{p(x^{(i)},z^{(i)};\theta^{(t)})\over Q_i(z^{(i)})}.$
再把

θ^{(t + 1)}

$\theta^{(t+1)}$ 迭代回去，得到的函数值肯定会大于等于上一步的函数值，因此第二个不等式成立。
综上，通过EM算法，我们总可以得到

l (θ^{(t + 1)}) \geq l (θ^{(t)})

$l(\theta^{(t+1)})\ge l(\theta^{(t)})$ ，从而不断优化，直到收敛，收敛条件是函数值增长小于等于阈值（阈值自己设定）时，停止迭代。

二高斯混合模型（Gaussian Misture Model, GMM）
EM算法的一个重要应用就是高斯混合模型的参数估计。
高斯混合模型（Gaussian Misture Model, GMM）是指具有如下形式的概率分布模型：

p (y | θ) = \sum_{j = 1}^{k} ϕ_{j} p (y | θ_{j})

$p(y|\theta)=\sum_{j=1}^k\phi_jp(y|\theta_j)$
其中，

ϕ_{j}

$\phi_j$ 是系数，

ϕ_{j} \geq 0, \sum_{j = 1}^{k} ϕ_{j} = 1

$\phi_j\ge 0,\sum_{j=1}^k\phi_j=1$ ;

p (y | θ_{j})

$p(y|\theta_j)$ 是高斯分布密度，

θ_{j} = (μ_{j}, σ_{j}^{2}) = ((μ_{j}, Σ_{j})

$\theta_j=(\mu_j,\sigma_j^2)=((\mu_j,\Sigma_j)$ ,

p (y | θ_{j}) = \frac{1}{(2 π)^{\frac{1}{2}} σ_{j}} e x p (- \frac{(y - μ_{j})^{2}}{2 σ_{j}^{2}})

$p(y|\theta_j)={1\over (2\pi)^{1\over 2}\sigma_j}exp(-{(y-\mu_j)^2\over 2\sigma_j^2})$
称为第j个分模型。
一般混合模型可以由任意概率分布密度代替上式中的高斯分布密度，我们这里只介绍最常用的高斯混合模型。

E-step：计算

w_{j}^{(i)} = Q_{i} (z^{(i)} = j) = P (z^{(i)} = j | x^{(i)}; ϕ, μ, Σ) .

$w_j^{(i)}=Q_i(z^{(i)}=j)=P(z^{(i)}=j|x^{(i)};\phi,\mu,\Sigma).$
即

w_{j}^{(i)}

$w_j^{(i)}$ 是针对第i个样本，在参数为

ϕ, μ, Σ

$\phi,\mu,\Sigma$ 已知样本特征

x^{(i)}

$x^{(i)}$ 的情况下，属于第j个分模型的概率。
M-step：最大化以下式子优化参数

ϕ, μ, Σ

$\phi,\mu,\Sigma$ ：

\begin{aligned} (18) & L & = \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{p (x^{(i)}, z^{(i)}; ϕ, μ, Σ)}{Q_{i} (z^{(i)})} \\ (19) & = \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)} = j) l o g \frac{p (x^{(i)} | z^{(i)} = j; μ, Σ) p (z^{(i)} = j; ϕ)}{Q_{i} (z^{(i)}) = j} \\ (20) & = \sum_{i = 1}^{m} \sum_{z^{(i)}} w_{j}^{(i)} l o g \frac{\frac{1}{(2 π)^{\frac{1}{2}} | Σ_{j} |^{\frac{1}{2}}} e x p (- \frac{1}{2} (x^{(i)} - μ_{j})^{T} Σ_{j}^{- 1} (x^{(i)} - μ_{j})) \cdot ϕ_{j}}{w_{j}^{(i)}} \end{aligned}

$\begin{align} L&=\sum_{i=1}^m \sum_{z^{(i)}} Q_i(z^{(i)})log{p(x^{(i)},z^{(i)};\phi,\mu,\Sigma)\over Q_i(z^{(i)})} \\ & = \sum_{i=1}^m \sum_{z^{(i)}} Q_i(z^{(i)}=j)log{p(x^{(i)}|z^{(i)}=j;\mu,\Sigma)p(z^{(i)}=j;\phi)\over Q_i(z^{(i)})=j} \\ & = \sum_{i=1}^m \sum_{z^{(i)}} w_j^{(i)}log{{1\over (2\pi)^{1\over 2}|\Sigma_j|^{1\over 2}}exp(-{1\over 2}(x^{(i)}-\mu_j)^T\Sigma_j^{-1}(x^{(i)}-\mu_j))\cdot \phi_j\over w_j^{(i)}} \end{align}$

首先我们关于 $\mu_l$ 最大化以上式子。将L对 $\mu_l$ 求导，得到：

\begin{aligned} (21) & \frac{\partial L}{\partial μ_{l}} & = \nabla_{μ_{l}} \sum_{i = 1}^{m} \sum_{j = 1}^{k} w_{j}^{(i)} l o g \frac{\frac{1}{(2 π)^{\frac{1}{2}} | Σ_{j} |^{\frac{1}{2}}} e x p (- \frac{1}{2} (x^{(i)} - μ_{j})^{T} Σ_{j}^{- 1} (x^{(i)} - μ_{j})) \cdot ϕ_{j}}{w_{j}^{(i)}} \\ (22) & = \nabla_{μ_{l}} \sum_{i = 1}^{m} \sum_{j = 1}^{k} w_{j}^{(i)} \frac{1}{2} (x^{(i)} - μ_{j})^{T} Σ_{j}^{- 1} (x^{(i)} - μ_{j}) \\ (23) & = \frac{1}{2} \sum_{i = 1}^{m} w_{l}^{(i)} \nabla_{μ_{l}} 2 μ_{l}^{T} Σ_{l}^{- 1} x^{(i)} - μ_{l}^{T} Σ_{l}^{- 1} μ_{l} \\ (24) & = \sum_{i = 1}^{m} w_{l}^{(i)} (Σ_{l}^{- 1} x^{(i)} - Σ_{l}^{- 1} μ_{l}) \end{aligned}

$\begin{align} {\partial L \over \partial \mu_l}&=\nabla_{\mu_l}\sum_{i=1}^m \sum_{j=1}^k w_j^{(i)}log{{1\over (2\pi)^{1\over 2}|\Sigma_j|^{1\over 2}}exp(-{1\over 2}(x^{(i)}-\mu_j)^T\Sigma_j^{-1}(x^{(i)}-\mu_j))\cdot \phi_j\over w_j^{(i)}} \\ & =\nabla_{\mu_l} \sum_{i=1}^m \sum_{j=1}^k w_j^{(i)} {1\over 2} (x^{(i)}-\mu_j)^T\Sigma_j^{-1}(x^{(i)}-\mu_j)\\ & = {1\over 2}\sum_{i=1}^mw_l^{(i)}\nabla_{\mu_l} 2\mu_l^T\Sigma_l^{-1}x^{(i)}-\mu_l^T\Sigma_l^{-1}\mu_l\\ & = \sum_{i=1}^mw_l^{(i)}(\Sigma_l^{-1}x^{(i)}-\Sigma_l^{-1}\mu_l) \end{align}$

令导数等于零，可得到 $\mu_l$ 的更新规则如下：

μ_{l} := \frac{\sum_{i = 1}^{m} w_{l}^{(i)} x^{(i)}}{\sum_{i = 1}^{m} w_{l}^{(i)}} .

$\mu_l:={\sum_{i=1}^m w_l^{(i)}x^{(i)}\over \sum_{i=1}^m w_l^{(i)}}.$
至于

Σ

$\Sigma$ 的更新跟

μ_{l}

$\mu_l$ 类似，不再赘述。下面讲一下

ϕ

$\phi$ 的更新。
通过观察式子，我们可以把无关变量去掉，得到：

L (ϕ) = \sum_{i = 1}^{m} \sum_{j = 1}^{k} w_{j}^{(i)} l o g ϕ_{j} .

$L(\phi)=\sum_{i=1}^m \sum_{j=1}^kw_j^{(i)}log \phi_j.$
另一方面，因为

ϕ_{j} = p (z^{(i)} = j; ϕ)

$\phi_j=p(z^{(i)}=j;\phi)$ ，所以有约束条件

\sum_{j = 1}^{k} ϕ_{j} = 1

$\sum_{j=1}^k\phi_j=1$ .因此，我们使用拉格朗日乘子

β

$\beta$ 将有约束问题转换成无约束问题，如下：

L (ϕ) = \sum_{i = 1}^{m} \sum_{j = 1}^{k} w_{j}^{(i)} l o g ϕ_{j} + β (\sum_{j = 1}^{k} ϕ_{j} - 1)

$L(\phi)=\sum_{i=1}^m \sum_{j=1}^kw_j^{(i)}log \phi_j+\beta(\sum_{j=1}^k\phi_j-1)$
值得注意的是，这里并没有把约束条件

ϕ_{j} > 0

$\phi_j>0$ 加上，这是为什么呢？别急，下文会提到。
对以上式子求导，得到：

\frac{\partial L (ϕ)}{\partial ϕ_{j}} = \sum_{i = 1}^{m} \frac{w_{j}^{(i)}}{ϕ_{j}} + β

${\partial L(\phi) \over \partial \phi_j}=\sum_{i=1}^m{w_j^{(i)} \over \phi_j}+\beta$
令导数等于零，可得到

ϕ_{j}

$\phi_j$ 的更新规则如下：

ϕ_{j} := \frac{\sum_{i = 1}^{m} w_{j}^{(i)}}{- β} .

$\phi_j:={\sum_{i=1}^mw_j^{(i)} \over -\beta}.$
使用约束条件

\sum_{j = 1}^{k} ϕ_{j} = 1

$\sum_{j=1}^k\phi_j=1$ ，我们可以得到

- β = \sum_{i = 1}^{m} \sum_{j = 1}^{k} w_{j}^{(i)} = \sum_{i = 1}^{m} 1 = m (使 用 条 件 w_{j}^{(i)} = Q_{i} (z^{(i)} = j), 从 而 \sum_{j = 1}^{k} w_{j}^{(i)} = 1)

$-\beta=\sum_{i=1}^m\sum_{j=1}^kw_j^{(i)}=\sum_{i=1}^m1=m(使用条件w_j^{(i)}=Q_i(z^{(i)}=j),从而\sum_{j=1}^kw_j^{(i)}=1)$ ，因此，我们可以进一步化简得到：

ϕ_{j} := \frac{1}{m} \sum_{i = 1}^{m} w_{j}^{(i)} .

$\phi_j:={1 \over m}\sum_{i=1}^mw_j^{(i)}.$
我们可以看到，

ϕ_{j}

$\phi_j$ 恒大于零，默认满足约束条件

ϕ_{j} > 0

$\phi_j>0$ 。

再简单说明一下我理解的EM算法与Kmeans算法的联系与区别：
联系：Kmeans算法可以看作EM算法的一个特例，Kmeans中的簇即为EM算法中的隐藏变量；
区别：Kmeans中每一个数据点都只属于一个簇中，属于硬分隔；
而EM算法使用后验概率的方法，相当于一个数据点分到每一个簇都有一个概率，概率和为1.

参考：吴恩达CS229 Lecture notes “The EM algorithm”
《统计学习方法》（李航著）

猜你喜欢