3.2 参数估计:极大似然估计方法 ML

3.2 极大似然估计方法 ML

极大似然估计方法是高斯提出,并利用该技术获得测量误差满足高斯分布的结论。假设随机变量满足概率密度函数 p ( x θ ) p(x|\mathbf{\theta}) ,其中 θ \mathbf{\theta} 是需要估计的参数向量,比如高斯分布中的均值和方差参数,令随机抽取到 n n 个样本 ( x 1 , , x n ) (x_1,\cdots,x_n) 。每个样本被抽取到的概率为 p ( x i θ ) p(x_i|\mathbf{\theta}) ,假设每个样本都是独立的,则抽取到整个样本集的概率为

p ( θ ) = i p ( x i θ ) p(\mathbf{\theta}) = \prod_i p(x_i|\mathbf{\theta})

极大似然估计方法的假设是,既然我们抽取到了样本集 ( x 1 , , x n ) (x_1,\cdots,x_n) ,而不是抽取到其他样本集,这说明该样本集出现的概率很高,故假设其出现概率极大,称为似然函数。所以极大似然估计得到的参数估计值使似然函数极大。即

θ ˉ m l = a r g m a x i p ( x i θ ) \bar \mathbf{\theta}_{ml} = argmax \prod_i p(x_i|\mathbf{\theta})

由于概率密度一般为连续函数,故上式对参数取偏导数并令其等于 0 ,可得到 m m 个标量方程组,解方程组即可。但这些方程一般是耦合且非线性的,除了简单情况,只能数值求解。 m m 为估计参数数量。

由于似然函数是连乘且概率密度函数常包含指数函数且大于 0 ,采用数学技巧变为求对数概率最大,即

θ ˉ m l = a r g m a x i l o g p ( x i θ ) \bar \mathbf{\theta}_{ml} = argmax \sum_i log p(x_i|\mathbf{\theta})

采用极大似然估计方法估计高斯分布参数为

μ ˉ m l = 1 / n i x i σ 2 ˉ m l = 1 / n i ( x i μ ˉ m l ) 2 \bar {\mu}_{ml} = 1/n\sum_i x_i \\ \bar {\sigma^2}_{ml} = 1/n\sum_i (x_i - \bar {\mu}_{ml})^2

和采用矩方法结果很类似,只是方差参数是除以 n n ,而不是 n 1 n-1 ,当 n n 较大时差别可忽略。

采用极大似然估计方法估计拉普拉斯分布 p ( x ) = 1 2 σ e x p ( x μ σ ) p(x) = \frac{1}{2\sigma} exp(-\frac{|x-\mu|}{\sigma}) 参数为

μ ˉ m l = x i σ ˉ m l = 1 / n i x i μ ˉ m l \bar {\mu}_{ml} = 数组 x_i 的中值 \\ \bar {\sigma}_{ml} = 1/n \sum_i |x_i - \bar {\mu}_{ml}|

和采用矩方法结果完全不同,由于数组中值不受异常值影响,故分布均值估计很稳健;尺度参数估计是计算绝对值,是一次方关系,而矩方法是平方,是二次方关系,可见极大似然估计方法估计尺度参数比矩方法更稳健,虽然也会受到异常值影响。鲁棒最小二乘法和鲁棒 PCA 都采用了这种数学方法,这是这些方法背后的原理。这也验证了极大似然估计方法的合理性。

一般来说,极大似然估计方法比矩方法更鲁棒。

极大似然估计方法还可用于离散随机变量的估计。取伯努利分布为例,随机变量取 1,0 两个值,概率分布为 p , 1 p p, 1-p p p 未知,需要估计。假设随机抽样得到 n n 个样本,得到样本集 D = ( x 1 , , x n ) D = (x_1,\cdots,x_n) ,每一次试验是独立的,那么这些样本同时出现的概率就是这些样本单独出现的概率的乘积。

P ( D ) = i p x i ( 1 p ) 1 x i P(D) = \prod_i p^{x_i}(1-p)^{1-x_i}

取对数,对 p p 求导并令导数为 0,可得参数 p p 的估计值

p = 1 n i x i = m n p = \frac{1}{n}\sum_i x_i = \frac{m}{n}

其中 m m 是抽样到 1 的次数,即成功次数。

这个结果十分符合人的直觉。翻译成生活语言就是,假设一个箱子有很多黑球和白球,我们需要估计黑球的比例。我们共抽取 n n 个球,其中黑球有 m m 个,则黑球比例的合理估计是 m / n m/n ,显然当 n n 很大时,估计越来越准确。这个估计值就是极大似然估计值。

该估计的理论基础是伯努利大数定理,设 m m n n 重伯努利实验中事件A发生的次数, p p 为A在每次实验中发生的概率, n n 趋向于无穷大时,事件A在 n n 重伯努利事件中发生的频率 m / n m/n 无限接近于事件A发生的概率 p p 。我们生活中会不自觉的经常利用该定理进行推断。另一种表达方式为当样本数据无限大时,样本均值趋于分布均值,这就是切比雪夫大数定律,这也是用样本均值估计分布均值的理论基础。

猜你喜欢

转载自blog.csdn.net/jhshanvip/article/details/107299249
今日推荐