3.2 极大似然估计方法 ML
极大似然估计方法是高斯提出,并利用该技术获得测量误差满足高斯分布的结论。假设随机变量满足概率密度函数
p
(
x
∣
θ
)
p(x|\mathbf{\theta})
p ( x ∣ θ ) ,其中
θ
\mathbf{\theta}
θ 是需要估计的参数向量,比如高斯分布中的均值和方差参数,令随机抽取到
n
n
n 个样本
(
x
1
,
⋯
,
x
n
)
(x_1,\cdots,x_n)
( x 1 , ⋯ , x n ) 。每个样本被抽取到的概率为
p
(
x
i
∣
θ
)
p(x_i|\mathbf{\theta})
p ( x i ∣ θ ) ,假设每个样本都是独立的,则抽取到整个样本集的概率为
p
(
θ
)
=
∏
i
p
(
x
i
∣
θ
)
p(\mathbf{\theta}) = \prod_i p(x_i|\mathbf{\theta})
p ( θ ) = i ∏ p ( x i ∣ θ )
极大似然估计方法的假设是,既然我们抽取到了样本集
(
x
1
,
⋯
,
x
n
)
(x_1,\cdots,x_n)
( x 1 , ⋯ , x n ) ,而不是抽取到其他样本集,这说明该样本集出现的概率很高,故假设其出现概率极大,称为似然函数。所以极大似然估计得到的参数估计值使似然函数极大。即
θ
ˉ
m
l
=
a
r
g
m
a
x
∏
i
p
(
x
i
∣
θ
)
\bar \mathbf{\theta}_{ml} = argmax \prod_i p(x_i|\mathbf{\theta})
θ ˉ m l = a r g m a x i ∏ p ( x i ∣ θ )
由于概率密度一般为连续函数,故上式对参数取偏导数并令其等于 0 ,可得到
m
m
m 个标量方程组,解方程组即可。但这些方程一般是耦合且非线性的,除了简单情况,只能数值求解。
m
m
m 为估计参数数量。
由于似然函数是连乘且概率密度函数常包含指数函数且大于 0 ,采用数学技巧变为求对数概率最大,即
θ
ˉ
m
l
=
a
r
g
m
a
x
∑
i
l
o
g
p
(
x
i
∣
θ
)
\bar \mathbf{\theta}_{ml} = argmax \sum_i log p(x_i|\mathbf{\theta})
θ ˉ m l = a r g m a x i ∑ l o g p ( x i ∣ θ )
采用极大似然估计方法估计高斯分布参数为
μ
ˉ
m
l
=
1
/
n
∑
i
x
i
σ
2
ˉ
m
l
=
1
/
n
∑
i
(
x
i
−
μ
ˉ
m
l
)
2
\bar {\mu}_{ml} = 1/n\sum_i x_i \\ \bar {\sigma^2}_{ml} = 1/n\sum_i (x_i - \bar {\mu}_{ml})^2
μ ˉ m l = 1 / n i ∑ x i σ 2 ˉ m l = 1 / n i ∑ ( x i − μ ˉ m l ) 2
和采用矩方法结果很类似,只是方差参数是除以
n
n
n ,而不是
n
−
1
n-1
n − 1 ,当
n
n
n 较大时差别可忽略。
采用极大似然估计方法估计拉普拉斯分布
p
(
x
)
=
1
2
σ
e
x
p
(
−
∣
x
−
μ
∣
σ
)
p(x) = \frac{1}{2\sigma} exp(-\frac{|x-\mu|}{\sigma})
p ( x ) = 2 σ 1 e x p ( − σ ∣ x − μ ∣ ) 参数为
μ
ˉ
m
l
=
数
组
x
i
的
中
值
σ
ˉ
m
l
=
1
/
n
∑
i
∣
x
i
−
μ
ˉ
m
l
∣
\bar {\mu}_{ml} = 数组 x_i 的中值 \\ \bar {\sigma}_{ml} = 1/n \sum_i |x_i - \bar {\mu}_{ml}|
μ ˉ m l = 数 组 x i 的 中 值 σ ˉ m l = 1 / n i ∑ ∣ x i − μ ˉ m l ∣
和采用矩方法结果完全不同,由于数组中值不受异常值影响,故分布均值估计很稳健;尺度参数估计是计算绝对值,是一次方关系,而矩方法是平方,是二次方关系,可见极大似然估计方法估计尺度参数比矩方法更稳健,虽然也会受到异常值影响。鲁棒最小二乘法和鲁棒 PCA 都采用了这种数学方法,这是这些方法背后的原理。这也验证了极大似然估计方法的合理性。
一般来说,极大似然估计方法比矩方法更鲁棒。
极大似然估计方法还可用于离散随机变量的估计。取伯努利分布为例,随机变量取 1,0 两个值,概率分布为
p
,
1
−
p
p, 1-p
p , 1 − p ,
p
p
p 未知,需要估计。假设随机抽样得到
n
n
n 个样本,得到样本集
D
=
(
x
1
,
⋯
,
x
n
)
D = (x_1,\cdots,x_n)
D = ( x 1 , ⋯ , x n ) ,每一次试验是独立的,那么这些样本同时出现的概率就是这些样本单独出现的概率的乘积。
P
(
D
)
=
∏
i
p
x
i
(
1
−
p
)
1
−
x
i
P(D) = \prod_i p^{x_i}(1-p)^{1-x_i}
P ( D ) = i ∏ p x i ( 1 − p ) 1 − x i
取对数,对
p
p
p 求导并令导数为 0,可得参数
p
p
p 的估计值
p
=
1
n
∑
i
x
i
=
m
n
p = \frac{1}{n}\sum_i x_i = \frac{m}{n}
p = n 1 i ∑ x i = n m
其中
m
m
m 是抽样到 1 的次数,即成功次数。
这个结果十分符合人的直觉。翻译成生活语言就是,假设一个箱子有很多黑球和白球,我们需要估计黑球的比例。我们共抽取
n
n
n 个球,其中黑球有
m
m
m 个,则黑球比例的合理估计是
m
/
n
m/n
m / n ,显然当
n
n
n 很大时,估计越来越准确。这个估计值就是极大似然估计值。
该估计的理论基础是伯努利大数定理,设
m
m
m 为
n
n
n 重伯努利实验中事件A发生的次数,
p
p
p 为A在每次实验中发生的概率,
n
n
n 趋向于无穷大时,事件A在
n
n
n 重伯努利事件中发生的频率
m
/
n
m/n
m / n 无限接近于事件A发生的概率
p
p
p 。我们生活中会不自觉的经常利用该定理进行推断。另一种表达方式为当样本数据无限大时,样本均值趋于分布均值,这就是切比雪夫大数定律,这也是用样本均值估计分布均值的理论基础。