ML基本知识（六）EM 算法

Jensen不等式

对于凸函数 $f$ （ $f''(x)\geq0$ ）和随机变量 $X$ , 那么有如下结论

$E[f(x)]\geq f(EX)$

如果 $f$ 为严格凸函数，而且 $X$ 为常量，即 $E[X]=X$ , 则有

$E[f(X)]=f(EX)$
而对于凹函数 $f$ （ $f''(x)\leq0$ ）和随机变量 $X$ , 则有 $E[f(x)]\leq f(EX)$

EM算法

如果有训练集 $\{x^{(1)}, x^{(2)},...,x^{(m)}\}$ , 存在隐变量 $z$ , 我们想求解出 $p(x,z)$ , 那么现在似然函数可写为

$l(\theta )=\sum_{i=1}^{m}logp(x;\theta )=\sum_{i=1}^{m}log\sum _{z}p(x,z;\theta )$
- E 步骤
  
  那么对于 $x^{(i)}$ 来说，有一个隐变量 $z^{(i)}$ 不好求解，那么我们可以通过假设 $z^{(i)}$ 的分布 $Q_i(z)$ 来辅助求解，显而易见 $\sum_z Q_i(z)=1$ , 因而通过如下式子，
  
  $\sum _i logp(x^{(i)};\theta )=\sum _i log\sum _{z^{(i)}}p(x^{(i)}, z^{(i)};\theta )$ $=\sum _i log\sum _{z^{(i)}}Q_i(z^{(i)})\frac{p(x^{(i)},z^{(i)};\theta )}{Q_i(z^{(i)})}$ $\geq \sum _i \sum _{z^{(i)}}Q_i(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta )}{Q_i(z^{(i)})}$
  
  不等式成立的原因是 $log(x)$ 为凹函数，
  
  而现在我们需要选择的就是 $Q_i$ 的取值，那么我们现在就可以选择能够使不等式的等号成立的 $Q_i$ , 这时根据Jensen不等式的成立条件，
  
  $\frac{p(x^{(i)},z^{(i)};\theta )}{Q_i(z^{(i)})}=c(constant)$
  因而有 $Q_i(z^{(i)})$ 正比于 $p(x^{(i)},z^{(i)};\theta )$ , 而由 $\sum_z Q_i(z)=1$ 可知，我们可以假设
  $Q_i(z^{(i)}) = \frac{p(x^{(i)},z^{(i)};\theta )}{\sum _z p(x^{(i)},z;\theta )}$
  $=\frac{p(x^{(i)},z^{(i)};\theta )}{ p(x^{(i)};\theta )}$
  $= p(z^{(i)}|x^{(i)};\theta )$
  上述就是所谓的EM算法中的E步骤，通过初始化的 $\theta$ 以及假设的后验概率分布 $p(z^{(i)}|x^{(i)};\theta )$ 求解出$ Q_i(z^{(i)})$,
- M步骤
  
  当求解出$ Q_i(z^{(i)}) $时，我们可以通过对似然函数求导等于0得到新的$ \theta$, 公式如下，
  $\theta := argmax_{\theta } \sum _i\sum _{z^{(i)}}Q_i(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta )}{Q_i(z^{(i)})}$
  经过最新的 $\theta$ ，又能够得到新的后验概率，因而不断迭代，直到收敛，
EM算法收敛性证明

EM算法正确性的证明目标为 $l(\theta^{(t)})\leq l(\theta^{(t+1)})$ ,

根据EM算法，有
$l(\theta^{(t)})=\sum _i \sum _{z^{(i)}}Q_i(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta )}{Q_i(z^{(i)})}$
而对于$ l(\theta^{(t+1)})$, 有

$l(\theta^{(t+1)}) \geq \sum _i \sum _{z^{(i)}}Q_i^{(t)}(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta^{(t+1)} )}{Q_i^{(t)}(z^{(i)})}$
这是由于 $l(\theta)$ 的本质得来的，

$l(\theta)\geq \sum _i \sum _{z^{(i)}}Q_i(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta )}{Q_i(z^{(i)})}$
这时 $Q_i= Q_i^{(t)}$ , $\theta=\theta^{(t+1)}$ ,

而

$\sum _i \sum _{z^{(i)}}Q_i^{(t)}(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta^{(t+1)} )}{Q_i^{(t)}(z^{(i)})}$
$\geq \sum _i \sum _{z^{(i)}}Q_i^{(t)}(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta^{(t)} )}{Q_i^{(t)}(z^{(i)})}$
是由于 $\theta^{(t+1)}$ 是如下式子的取值，

$argmax_{\theta}\sum _i \sum _{z^{(i)}}Q_i^{(t)}(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta )}{Q_i^{(t)}(z^{(i)})}$

因而总式子为

$l(\theta^{(t+1)}) \geq \sum _i \sum _{z^{(i)}}Q_i^{(t)}(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta^{(t+1)} )}{Q_i^{(t)}(z^{(i)})}$
$\geq \sum _i \sum _{z^{(i)}}Q_i^{(t)}(z^{(i)})log\frac{p(x^{(i)},z^{(i)};\theta^{(t)} )}{Q_i^{(t)}(z^{(i)})}=l(\theta^{(t)})$

因而收敛性得证，EM更新迭代的过程就是 $l(\theta)$ 单调递增的过程，

这里值得说明的是，EM算法更像是坐标上升算法，E步骤是对 $Q_i(z)$ 进行坐标上升，而M步骤是对 $\theta$ 的坐标上升，

LightYoungLee

发布了36 篇原创文章 · 获赞 42 · 访问量 1万+

私信关注

ML基本知识（六）EM 算法

猜你喜欢