【概率论与数理统计 Probability and Statistics 16】—— 参数估计(矩估计和极大似然估计解析)


首先说说为什么需要参数估计:在我们的实际问题里面,往往是知道总体服从什么样的分布,但是这个分布有一些参数是不知道的,那么我们就必须要先知道这些参数是多少,然后才能去进行后续的计算。那么本次 B l o g Blog 将会介绍两种常用的估计方法。其中,极大似然估计在很多地方都会使用到,例如某些图像处理算法就是基于极大似然估计的。OK,闲话少说,我们开始吧!

一、矩估计

首先,矩估计的数学基础是大数定理: lim n P ( 1 n i = 1 n X k E X k ) ε ) = 0 \lim_{n\to ∞}P(|\frac{1}{n}\sum_{i=1}^nX^k - EX^k|) ≥ ε) = 0
也就是说,在 n n \to ∞ 时,我们可以用 1 n i = 1 n X k \frac{1}{n}\sum_{i=1}^nX^k 来近似代替 E X k EX^k .

那么,到底如何使用矩估计呢?我们通过一个例题来分析固定的步骤:

已知总体服从 X N ( μ , σ 2 ) X \sim N(μ, σ^2) ,其中 μ , σ 2 μ, σ^2 是未知数,求这两个未知数。

【第一步】:把所有未知数设出来。我们设 θ 1 = μ , θ 2 = σ 2 θ_1 = μ, θ_2 = σ^2
【第二步】:有几个未知数,我们先要表示几阶矩。这里是两个参数,所以我们先要表示一下 E X EX E X 2 EX^2
我们开始表示:
E X = θ 1 EX = θ_1 E X 2 = D X + ( E X ) 2 = θ 2 + θ 1 2 EX^2 = DX + (EX)^2 =θ_2 + θ_1^2

【第三步】:用 k k 阶矩表示 θ 1 , θ 2 θ_1, θ_2
θ 1 = E X θ_1 = EX θ 2 = E X 2 ( E X ) 2 θ_2 = EX^2 - (EX)^2

【第四步】:根据我们一开始说的数学基础,可以使用 1 n i = 1 n X k \frac{1}{n}\sum_{i=1}^nX^k 来近似代替 E X k EX^k
所以我们就得到: θ 1 = 1 n i = 1 n X i θ_1 = \frac{1}{n}\sum_{i=1}^nX_i ,这里表示的是,我们可以用 n n 个样本的均值来近似计算 θ 1 θ_1 ,而不需要求总体均值。

θ 2 = 1 n i = 1 n X i 2 X ˉ 2 = S n 2 θ_2 = \frac{1}{n}\sum_{i=1}^nX_i^2 - \bar{X}^2 = S_n^2 ,也就是说,我们可以使用样本的方差来表示 θ 2 θ_2

二、极大似然估计

我们下面学习极大似然估计。首先我们看看方法:
【第一步】我们需要设出似然函数 L L ,对于离散型随机变量而言, L L 就是每一个样本值的概率相乘,即: L ( x 1 , x 2 , , x n , θ ) = i = 1 n p ( x i , θ ) L(x_1, x_2, \cdots, x_n, θ) = \prod_{i=1}^n p(x_i, θ)
对于连续型随机变量而言,似然函数 L L 就是每一个样本对应的概率密度函数相乘: L ( x 1 , x 2 , , x n , θ ) = i = 1 n f ( x i , θ ) L(x_1, x_2, \cdots, x_n, θ) = \prod_{i=1}^n f(x_i, θ)

【第二步】我们的目的是找到使得 L L 最小的那个 θ θ 值,因此,需要对 L L 求导找最大值。但是我们先需要对似然函数两边同时取对数

【第三步】对取完对数之后的式子求导,令倒数等于0,解出 θ θ ,就完成了极大似然估计

我们继续根据一个例子理解极大似然估计的步骤:



首先这是离散型的随机变量,所以似然函数是这 n n 个样本的概率值的乘积。可是问题来了,0-1分布, x i x_i 取0和取1 的概率不一样,那么我们就需要一个统一的表达式来表示 x i x_i 的概率值。如下所示: P { X i = x } = p x ( 1 p ) 1 x P\{X_i = x\} = p^x(1-p)^{1-x}
x = 0 x = 0 时,根据上面的式子,我们知道 P { X = 0 } = 1 p P\{X = 0\} = 1-p ,当 x = 1 x = 1 时, P { X = 1 } = p P\{X = 1\} = p 符合要求。

下面我们就开始构造似然函数 L L L ( x 1 , x 2 , , x n , p ) = p x 1 ( 1 p ) 1 x 1 p x 2 ( 1 p ) 1 x 2 p x n ( 1 p ) 1 x n L(x_1, x_2, \cdots, x_n, p) = p^{x_1}(1-p)^{1-x_1}p^{x_2}(1-p)^{1-x_2}\cdots p^{x_n}(1-p)^{1-x_n}
即: L ( x 1 , x 2 , , x n , p ) = p i = 1 n x i ( 1 p ) n i = 1 n x i L(x_1, x_2, \cdots, x_n, p) = p^{\sum_{i=1}^nx_i}(1-p)^{n - \sum_{i=1}^nx_i}
下面,我们就对这个式子两边同时取对数: l n ( L ( x 1 , x 2 , , x n , p ) ) = i = 1 n x i l n ( p ) + ( n i = 1 n x i ) l n ( 1 p ) ln(L(x_1, x_2, \cdots, x_n, p)) = \sum_{i=1}^nx_iln(p) + (n - \sum_{i=1}^nx_i)ln(1-p)
然后,两边同时对 p p 求导,得: d l n ( L ( x 1 , x 2 , , x n , p ) ) d p = 1 p i = 1 n x i 1 1 p ( n i = 1 n x i ) \frac{dln(L(x_1, x_2, \cdots, x_n, p))}{dp} = \frac{1}{p}\sum_{i=1}^nx_i - \frac{1}{1-p}(n - \sum_{i=1}^nx_i)
令导数等于0,得: 1 p i = 1 n x i = 1 1 p ( n i = 1 n x i ) \frac{1}{p}\sum_{i=1}^nx_i = \frac{1}{1-p}(n - \sum_{i=1}^nx_i)
最后,我们把 p p 给解出来: p = 1 n i = 1 n x i = X ˉ p = \frac{1}{n}\sum_{i=1}^nx_i = \bar{X}

另外,如果遇到了像是正态分布这样有两个变量的,极大似然估计也是一样的,只不过是要分别对两个变量求偏导数罢了。然后联立解方程。

结束语:本文介绍了两种常见的参数估计算法,但是这两种算法估计出来的参数孰优孰劣呢?我们需要一个合理的评估,那么在下一篇 B l o g Blog 我们将探索这个问题。

猜你喜欢

转载自blog.csdn.net/weixin_44586473/article/details/106160006