样本方差之n-1理论推导及计算机实验证明

样本方差计算中，取值n-1的依据：

数学理论依据：

https://www.zhihu.com/question/28964121

作者：Yeung Evan
链接：https://www.zhihu.com/question/28964121/answer/289715220
来源：知乎
著作权归作者所有。

样本方差的表达式除以 $(n-1)$ 而不是除以 $n$ 真的是日经话题。实际上，唯一的解释是除以 $(n-1)$ 的定义式可以使得样本方差 $S^2$ 作为对总体方差 $\sigma^2<\infty$ 的估计量，是无偏的。

换句话说，设 $X_1, \dots, X_n$ 是从（总体）均值为 $\mu$ （总体）方差为 $\sigma^2<\infty$ 的总体中的随机抽样，那么，样本均值定义为 $\bar{X} = \frac{1}{n}\sum_{i = 1}^n X_i$ ，样本方差定义为 $S^2 = \frac{1}{n-1}\sum_{i = 1}^n (X_i - \bar{X})^2$ 就有如下结论： $\mathbb{E}(\bar{X}) = \mu$ ， $\mathbb{E}(S^2) = \sigma^2$ 。这就是无偏性的体现。这里注意，总体并不要求是正态总体，任意分布的总体均有如上的性质。

这里稍微提一下无偏性的重要性。实际上，要求统计量或者某个参数的估计量具有无偏性，比想象中要重要一些。比如你说，如果是有偏的话，那我最后估计的结果里减去偏差不就行了吗？这样做其实暗含了所谓的“偏差”你是知道具体是多少的，而且还暗含了“偏差”是个常数。而实际上，一个估计量有偏，当然可以偏得五花八门——从而造成了不能知道到底是多少。其次，如果对统计量理解深刻的话，你会知道我们所谓的点估计，实际上是使用一个随机变量（如这里的 $\bar{X}$ 和 $S^2$ ）去估计一个参数的值（非随机变量），而随机变量是对应着有分布的（比如正态总体下， $\bar{X} \sim N(\mu, \sigma^2 / n)$ ， $(n-1)S^2/ \sigma^2 \sim \chi^2(n-1)$ ），所以，即使总体的参数不变，不同批次的样本 $X_1^{(m)}, \dots, X_{n_m}^{(m)}$ 做出来的点估计（们）也是不一样的，而无偏性保证了，即使这些点估计们彼此不同，但如果批次 $m$ （不是样本 $n$ ）越来越多，这些点估计们的柱状图画出来一定是围绕真实值 $\mu$ 的正态分布。

如果你觉得上述分析是为了解释而解释，不太自然，那么可以考虑这样的例子。设 $X_1, \dots, X_n$ 是从（总体）均值为 $\mu$ （总体）方差为 $\sigma^2<\infty$ 的正态总体中的随机抽样，那么根据极大似然估计（MLE）， $\hat{\mu} = \frac{1}{n}\sum_{i = 1}^n X_i$ ， $\hat{\sigma}^2 = \frac{1}{n}\sum_{i = 1}^n (X_i - \bar{X})^2$ （注意这里MLE解出来是除以 $n$ 的）。不同的估计方法会有不同的统计量，比如，如果使用限制极大似然估计（REML），这里的估计就变成了 $\hat{\mu}_* = \frac{1}{n}\sum_{i = 1}^n X_i$ ， $\hat{\sigma}^2_* = \frac{1}{n-1}\sum_{i = 1}^n (X_i - \bar{X})^2$ （注意这里的REML解出来是除以 $n-1$ 的）。自然你会问，为啥两个方法结果不同？或者说REML到底限制了什么？这个时候，你再来用自由度解释：当 $\mu$ 和 $\sigma^2$ 都是未知的时候，回忆你解MLE的过程，求导之后设为零，得到两个方程，而 $\hat{\mu}$ 是从第一个方程先解出来的，也就是说不需要第二个方程就能解出 $\hat{\mu}$ ，而将其带入第二个方程，才继续解出 $\hat{\sigma}^2$ 。而MLE是不考虑求解过程细节的，所以得到的 $\hat{\mu}$ 和 $\hat{\sigma}^2$ 都是除以 $n$ 的；REML考虑到了这个细节，所以 $\hat{\sigma}^2_*$ 是除以 $n-1$ 的。