适用范围

假设训练样本的属性变量是不完整的

隐变量

令 $\mathbf{X}$ 表示已经观测的变量集合， $\mathbf{Z}$ 表示隐变量集， $\Theta$ 表示模型参数.如果对 $\Theta$ 做最大似然估计，则应当最大化对数似然

L L (Θ ∣ X, Z) = \ln P (X, Z ∣ Θ)

$LL(\Theta\mid\mathbf{X},\mathbf{Z})=\ln{P}(\mathbf{X},\mathbf{Z}\mid\Theta)$
然而由于

Z

$Z$ 是隐藏变量，上式无法直接求解。此时我们可以通过对

Z

$Z$ 计算期望，来最大化已观测数据的对数“边际似然”（marginal likelihood）

\begin{matrix} (A) & L L (Θ ∣ X) = \ln P (X ∣ Θ) = \ln \sum_{Z} P (X, Z ∣ Θ) \end{matrix}

$LL(\Theta\mid\mathbf{X})=\ln{P}(\mathbf{X}\mid\Theta)=\ln\sum_{\mathbf{Z}}{P}(\mathbf{X},\mathbf{Z}\mid\Theta)\tag{A}$

EM（Expectation_Maximization）算法

EM是常用的估计参数隐藏变量的利器，它是一种迭代式方法，其基本思想是：若参数 $\Theta$ 已知，则可以对训练数据集推断出最优隐变量 $Z$ 的值（ $E$ 步）；反之，若 $Z$ 的值已知，则可以方便对参数 $\Theta$ 做极大似然估计（ $M$ 步）。
于是，以初始值 $\Theta^{0}$ 为起点，对( $A$ ),可以迭代执行以下步骤直至收敛：

基于 $\Theta^{t}$ 推断隐变量 $\mathbf{Z}$ 的期望，记做 $\mathbf{Z}^{t}$
基于已观测变量 $\mathbf{X}$ 和 $\mathbf{Z}^{t}$ 对参数 $\Theta$ 做极大似然估计，记做 $\Theta^{t+1}$

EM算法的步骤

E步

以当前参数 $\Theta^{t}$ 推断隐变量分布 $P(\mathbf{Z}\mid\mathbf{X},\Theta^{t})$ ,并计算对数似然 $LL(\Theta\mid\mathbf{X},\mathbf{Z})$ 关于 $\mathbf{Z}$ 的期望

$Q (Θ ∣ Θ^{t}) = E_{Z ∣ X, Θ^{t}} L L (Θ ∣ X, Z)$ $Q(\Theta\mid\Theta^{t})=\mathbb{E}_{\mathbf{Z}\mid\mathbf{X},\Theta^{t}}LL(\Theta\mid\mathbf{X},\mathbf{Z})$

M步

寻找参数最大化的期望似然，即

$Θ^{t + 1} = \underset{Θ}{\arg min} Q (Θ ∣ Θ^{t})$ $\Theta^{t+1}=\mathop{\arg\min}_{\Theta}Q(\Theta\mid\Theta^{t})$

机器学习笔记_$EM$算法

适用范围

隐变量

EM（Expectation_Maximization）算法

EM算法的步骤

E步

M步

猜你喜欢