3.2 参数估计：极大似然估计方法 ML

3.2 极大似然估计方法 ML

极大似然估计方法是高斯提出，并利用该技术获得测量误差满足高斯分布的结论。假设随机变量满足概率密度函数 $p(x|\mathbf{\theta})$ ，其中 $\mathbf{\theta}$ 是需要估计的参数向量，比如高斯分布中的均值和方差参数，令随机抽取到 $n$ 个样本 $(x_1,\cdots,x_n)$ 。每个样本被抽取到的概率为 $p(x_i|\mathbf{\theta})$ ，假设每个样本都是独立的，则抽取到整个样本集的概率为

$p(\mathbf{\theta}) = \prod_i p(x_i|\mathbf{\theta})$

极大似然估计方法的假设是，既然我们抽取到了样本集 $(x_1,\cdots,x_n)$ ，而不是抽取到其他样本集，这说明该样本集出现的概率很高，故假设其出现概率极大，称为似然函数。所以极大似然估计得到的参数估计值使似然函数极大。即

$\bar \mathbf{\theta}_{ml} = argmax \prod_i p(x_i|\mathbf{\theta})$

由于概率密度一般为连续函数，故上式对参数取偏导数并令其等于 0 ，可得到 $m$ 个标量方程组，解方程组即可。但这些方程一般是耦合且非线性的，除了简单情况，只能数值求解。 $m$ 为估计参数数量。

由于似然函数是连乘且概率密度函数常包含指数函数且大于 0 ，采用数学技巧变为求对数概率最大，即

$\bar \mathbf{\theta}_{ml} = argmax \sum_i log p(x_i|\mathbf{\theta})$

采用极大似然估计方法估计高斯分布参数为

$\bar {\mu}_{ml} = 1/n\sum_i x_i \\ \bar {\sigma^2}_{ml} = 1/n\sum_i (x_i - \bar {\mu}_{ml})^2$

和采用矩方法结果很类似，只是方差参数是除以 $n$ ，而不是 $n-1$ ，当 $n$ 较大时差别可忽略。

采用极大似然估计方法估计拉普拉斯分布 $p(x) = \frac{1}{2\sigma} exp(-\frac{|x-\mu|}{\sigma})$ 参数为

$\bar {\mu}_{ml} = 数组 x_i 的中值 \\ \bar {\sigma}_{ml} = 1/n \sum_i |x_i - \bar {\mu}_{ml}|$

和采用矩方法结果完全不同，由于数组中值不受异常值影响，故分布均值估计很稳健；尺度参数估计是计算绝对值，是一次方关系，而矩方法是平方，是二次方关系，可见极大似然估计方法估计尺度参数比矩方法更稳健，虽然也会受到异常值影响。鲁棒最小二乘法和鲁棒 PCA 都采用了这种数学方法，这是这些方法背后的原理。这也验证了极大似然估计方法的合理性。

一般来说，极大似然估计方法比矩方法更鲁棒。

极大似然估计方法还可用于离散随机变量的估计。取伯努利分布为例，随机变量取 1，0 两个值，概率分布为 $p, 1-p$ ， $p$ 未知，需要估计。假设随机抽样得到 $n$ 个样本，得到样本集 $D = (x_1,\cdots,x_n)$ ，每一次试验是独立的，那么这些样本同时出现的概率就是这些样本单独出现的概率的乘积。

$P(D) = \prod_i p^{x_i}(1-p)^{1-x_i}$

取对数，对 $p$ 求导并令导数为 0，可得参数 $p$ 的估计值

$p = \frac{1}{n}\sum_i x_i = \frac{m}{n}$

其中 $m$ 是抽样到 1 的次数，即成功次数。

这个结果十分符合人的直觉。翻译成生活语言就是，假设一个箱子有很多黑球和白球，我们需要估计黑球的比例。我们共抽取 $n$ 个球，其中黑球有 $m$ 个，则黑球比例的合理估计是 $m/n$ ，显然当 $n$ 很大时，估计越来越准确。这个估计值就是极大似然估计值。

该估计的理论基础是伯努利大数定理，设 $m$ 为 $n$ 重伯努利实验中事件A发生的次数， $p$ 为A在每次实验中发生的概率， $n$ 趋向于无穷大时，事件A在 $n$ 重伯努利事件中发生的频率 $m/n$ 无限接近于事件A发生的概率 $p$ 。我们生活中会不自觉的经常利用该定理进行推断。另一种表达方式为当样本数据无限大时，样本均值趋于分布均值，这就是切比雪夫大数定律，这也是用样本均值估计分布均值的理论基础。

3.2 参数估计：极大似然估计方法 ML

3.2 极大似然估计方法 ML

猜你喜欢