【数学基础】无偏估计——为何样本方差需要除以（n-1）？

【fishing-pan：https://blog.csdn.net/u013921430 转载请注明出处】

相信在学习数理统计过程中，肯定很多人会下面这样的疑问

为什么样本方差是除以（n-1），而不是除以n呢？

那么今天就一起来看一下是为什么。

##背景知识
为了方便后面的表述，我们用 $\bar{X}$ 表示样本均值，用 $S^{2}$ 表示样本方差，用 $u$ 表示总体均值，用 $\sigma ^{2}$ 表示总体方差。

总体方差

整体方差的求得过程如下；
$\begin{aligned} \sigma^{2} =D(X)&=E((X_{i}-E(X))^{2})\\ &=E(X_{i}^{2}-2X_{i}E(X)+E(X)^{2})\\ &=\frac{1}{n}(\sum_{i=1}^{n}(X_{i}^{2})-2\sum_{i=1}^{n}X_{i}E(X)+nE(X)^{2}) \end{aligned}$
由于 $\sum_{i=1}^{n}X_{i}=nE(X)$ ，所以可得；
$\begin{aligned} \sigma^{2}=D(X) &=E((X_{i}-E(X))^{2})\\ &=\frac{1}{n}(\sum_{i=1}^{n}(X_{i}^{2})-nE(X)^{2})\\ &=E(X^{2})-E(X)^{2} \end{aligned}$

样本方差

$S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}$

中心极限定理

设从均值为 $u$ ，方差为 $\sigma^{2}$ 的一个任意总体中抽取容量为 $n$ 的样本，当n 充分大的时候，样本均值的抽样分布服从 $N(u,\sigma^{2}/n)$ 的分布，即；
$\begin{aligned} E(\bar{X})&=u\\ D(\bar{X})&=\sigma ^{2}/n \end{aligned}$

无偏估计

如果 $\hat{\theta }$ 的期望等于 $\theta$ ，则称 $\hat{\theta }$ 是 $\theta$ 的无偏估计量，即
$E(\hat{\theta })=\theta$
例如样本均值 $\bar{X}$ 是总体均值的无偏估计。
$E(\bar{X})=\frac{1}{n}\sum_{i=1}^{n}E(X_{i})=E(X)=u$

所有的前期准备工作就此结束了。

判断 $S^{2}$ 是否是 $\sigma ^{2}$ 的无偏估计

先假设 $\tilde{S}^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}$ ；那么求 $E(\tilde{S}^{2})$ ；
$\begin{aligned} E(\tilde{S}^{2})&=E(\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2})\\ &=E(\frac{1}{n}(\sum_{i=1}^{n}X_{i}^{2}-n\bar{X}^{2}))\\ &=\frac{1}{n}(nE(X^{2})-nE(\bar{X}^{2}))\\ \end{aligned}$
由于 $\sigma^{2}=D(X)=E(X^{2})-E(X)^{2}$ ，且样本均值服从 $N(u,\sigma^{2}/n)$ 的分布所以；
$\begin{aligned} E(\tilde{S}^{2})&=E(\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2})\\ &=E(\frac{1}{n}(\sum_{i=1}^{n}X_{i}^{2}-n\bar{X}^{2}))\\ &=\frac{1}{n}(nE(X^{2})-nE(\bar{X}^{2}))\\ &=\frac{1}{n}(n(\sigma ^{2}+u^{2})-n(D(\bar{X})+u^{2}))\\ &=\frac{1}{n}(n\sigma ^{2}+nu^{2}-\sigma ^{2}-nu^{2})\\ &=\frac{n-1}{n}\sigma ^{2} \end{aligned}$
所以，如果 $\tilde{S}^{2}$ 除以 $n$ 的话， $\tilde{S}^{2}$ 不是 $\sigma ^{2}$ 的无偏估计量，进而对其进行修正。令

$S^{2}=\frac{n}{n-1}\tilde{S}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}=\sigma^{2}$
从而使 $S^{2}$ 成为了 $\sigma ^{2}$ 的无偏估计量。这就是为什么样本方差除以的是(n-1)的原因，在实际运用中，可以用同一总体的不同样本的方差的均值来近似估计总体方差。而 $\tilde{S}^{2}$ 是总体方差的渐进无偏估计量。

$E(\tilde{S}^{2})=(\frac{n-1}{n}\sigma ^{2})\underset{n \to \infty }{\rightarrow\sigma ^{2}}$

已完。。