文章目录

一、矩估计
二、极大似然估计

首先说说为什么需要参数估计：在我们的实际问题里面，往往是知道总体服从什么样的分布，但是这个分布有一些参数是不知道的，那么我们就必须要先知道这些参数是多少，然后才能去进行后续的计算。那么本次

Blog

将会介绍两种常用的估计方法。其中，极大似然估计在很多地方都会使用到，例如某些图像处理算法就是基于极大似然估计的。OK，闲话少说，我们开始吧！

一、矩估计

首先，矩估计的数学基础是大数定理： $\lim_{n\to ∞}P(|\frac{1}{n}\sum_{i=1}^nX^k - EX^k|) ≥ ε) = 0$
也就是说，在 $n \to ∞$ 时，我们可以用 $\frac{1}{n}\sum_{i=1}^nX^k$ 来近似代替 $EX^k$ .

那么，到底如何使用矩估计呢？我们通过一个例题来分析固定的步骤：

已知总体服从 $X \sim N(μ, σ^2)$ ，其中 $μ, σ^2$ 是未知数，求这两个未知数。

【第一步】：把所有未知数设出来。我们设 $θ_1 = μ, θ_2 = σ^2$
【第二步】：有几个未知数，我们先要表示几阶矩。这里是两个参数，所以我们先要表示一下 $EX$ ， $EX^2$
我们开始表示：
$EX = θ_1$ ； $EX^2 = DX + (EX)^2 =θ_2 + θ_1^2$

【第三步】：用 $k$ 阶矩表示 $θ_1, θ_2$ ：
$θ_1 = EX$ ； $θ_2 = EX^2 - (EX)^2$

【第四步】：根据我们一开始说的数学基础，可以使用 $\frac{1}{n}\sum_{i=1}^nX^k$ 来近似代替 $EX^k$
所以我们就得到： $θ_1 = \frac{1}{n}\sum_{i=1}^nX_i$ ，这里表示的是，我们可以用 $n$ 个样本的均值来近似计算 $θ_1$ ，而不需要求总体均值。

$θ_2 = \frac{1}{n}\sum_{i=1}^nX_i^2 - \bar{X}^2 = S_n^2$ ，也就是说，我们可以使用样本的方差来表示 $θ_2$

二、极大似然估计

我们下面学习极大似然估计。首先我们看看方法：
【第一步】我们需要设出似然函数 $L$ ，对于离散型随机变量而言， $L$ 就是每一个样本值的概率相乘，即： $L(x_1, x_2, \cdots, x_n, θ) = \prod_{i=1}^n p(x_i, θ)$
对于连续型随机变量而言，似然函数 $L$ 就是每一个样本对应的概率密度函数相乘： $L(x_1, x_2, \cdots, x_n, θ) = \prod_{i=1}^n f(x_i, θ)$

【第二步】我们的目的是找到使得 $L$ 最小的那个 $θ$ 值，因此，需要对 $L$ 求导找最大值。但是我们先需要对似然函数两边同时取对数

【第三步】对取完对数之后的式子求导，令倒数等于0，解出 $θ$ ，就完成了极大似然估计

我们继续根据一个例子理解极大似然估计的步骤：

首先这是离散型的随机变量，所以似然函数是这 $n$ 个样本的概率值的乘积。可是问题来了，0-1分布， $x_i$ 取0和取1 的概率不一样，那么我们就需要一个统一的表达式来表示 $x_i$ 的概率值。如下所示： $P\{X_i = x\} = p^x(1-p)^{1-x}$
当 $x = 0$ 时，根据上面的式子，我们知道 $P\{X = 0\} = 1-p$ ，当 $x = 1$ 时， $P\{X = 1\} = p$ 符合要求。

下面我们就开始构造似然函数 $L$ ： $L(x_1, x_2, \cdots, x_n, p) = p^{x_1}(1-p)^{1-x_1}p^{x_2}(1-p)^{1-x_2}\cdots p^{x_n}(1-p)^{1-x_n}$
即： $L(x_1, x_2, \cdots, x_n, p) = p^{\sum_{i=1}^nx_i}(1-p)^{n - \sum_{i=1}^nx_i}$
下面，我们就对这个式子两边同时取对数： $ln(L(x_1, x_2, \cdots, x_n, p)) = \sum_{i=1}^nx_iln(p) + (n - \sum_{i=1}^nx_i)ln(1-p)$
然后，两边同时对 $p$ 求导，得： $\frac{dln(L(x_1, x_2, \cdots, x_n, p))}{dp} = \frac{1}{p}\sum_{i=1}^nx_i - \frac{1}{1-p}(n - \sum_{i=1}^nx_i)$
令导数等于0，得： $\frac{1}{p}\sum_{i=1}^nx_i = \frac{1}{1-p}(n - \sum_{i=1}^nx_i)$
最后，我们把 $p$ 给解出来： $p = \frac{1}{n}\sum_{i=1}^nx_i = \bar{X}$

另外，如果遇到了像是正态分布这样有两个变量的，极大似然估计也是一样的，只不过是要分别对两个变量求偏导数罢了。然后联立解方程。

结束语：本文介绍了两种常见的参数估计算法，但是这两种算法估计出来的参数孰优孰劣呢？我们需要一个合理的评估，那么在下一篇 $Blog$ 我们将探索这个问题。

【概率论与数理统计 Probability and Statistics 16】—— 参数估计（矩估计和极大似然估计解析）

文章目录

一、矩估计

二、极大似然估计

猜你喜欢