样本方差之n-1理论推导及计算机实验证明

样本方差计算中,取值n-1的依据:

数学理论依据:

https://www.zhihu.com/question/28964121

作者:Yeung Evan
链接:https://www.zhihu.com/question/28964121/answer/289715220
来源:知乎
著作权归作者所有。
 

样本方差的表达式除以 (n-1) 而不是除以 n 真的是日经话题。实际上,唯一的解释是除以 (n-1) 的定义式可以使得样本方差 S^2 作为对总体方差 \sigma^2<\infty 的估计量,是无偏的。

换句话说,设 X_1, \dots, X_n 是从(总体)均值为 \mu (总体)方差为 \sigma^2<\infty 的总体中的随机抽样,那么,样本均值定义为 \bar{X} = \frac{1}{n}\sum_{i = 1}^n X_i ,样本方差定义为 S^2 = \frac{1}{n-1}\sum_{i = 1}^n (X_i - \bar{X})^2 就有如下结论: \mathbb{E}(\bar{X}) = \mu\mathbb{E}(S^2) = \sigma^2 。这就是无偏性的体现。这里注意,总体并不要求是正态总体,任意分布的总体均有如上的性质。

这里稍微提一下无偏性的重要性。实际上,要求统计量或者某个参数的估计量具有无偏性,比想象中要重要一些。比如你说,如果是有偏的话,那我最后估计的结果里减去偏差不就行了吗?这样做其实暗含了所谓的“偏差”你是知道具体是多少的,而且还暗含了“偏差”是个常数。而实际上,一个估计量有偏,当然可以偏得五花八门——从而造成了不能知道到底是多少。其次,如果对统计量理解深刻的话,你会知道我们所谓的点估计,实际上是使用一个随机变量(如这里的 \bar{X}S^2 )去估计一个参数的值(非随机变量),而随机变量是对应着有分布的(比如正态总体下, \bar{X} \sim N(\mu, \sigma^2 / n)(n-1)S^2/ \sigma^2 \sim \chi^2(n-1) ),所以,即使总体的参数不变不同批次的样本 X_1^{(m)}, \dots, X_{n_m}^{(m)} 做出来的点估计(们)也是不一样的,而无偏性保证了,即使这些点估计们彼此不同,但如果批次 m (不是样本 n )越来越多,这些点估计们的柱状图画出来一定是围绕真实值 \mu 的正态分布。

如果你觉得上述分析是为了解释而解释,不太自然,那么可以考虑这样的例子。设 X_1, \dots, X_n 是从(总体)均值为 \mu (总体)方差为 \sigma^2<\infty正态总体中的随机抽样,那么根据极大似然估计(MLE), \hat{\mu} = \frac{1}{n}\sum_{i = 1}^n X_i\hat{\sigma}^2 = \frac{1}{n}\sum_{i = 1}^n (X_i - \bar{X})^2 (注意这里MLE解出来是除以 n 的)。不同的估计方法会有不同的统计量,比如,如果使用限制极大似然估计(REML),这里的估计就变成了 \hat{\mu}_* = \frac{1}{n}\sum_{i = 1}^n X_i\hat{\sigma}^2_* = \frac{1}{n-1}\sum_{i = 1}^n (X_i - \bar{X})^2 (注意这里的REML解出来是除以 n-1 的)。自然你会问,为啥两个方法结果不同?或者说REML到底限制了什么?这个时候,你再来用自由度解释:当 \mu\sigma^2 都是未知的时候,回忆你解MLE的过程,求导之后设为零,得到两个方程,而 \hat{\mu} 是从第一个方程解出来的,也就是说不需要第二个方程就能解出 \hat{\mu} ,而将其带入第二个方程,才继续解出 \hat{\sigma}^2 。而MLE是不考虑求解过程细节的,所以得到的 \hat{\mu}\hat{\sigma}^2 都是除以 n 的;REML考虑到了这个细节,所以 \hat{\sigma}^2_* 是除以 n-1 的。

扫描二维码关注公众号,回复: 9484491 查看本文章

最后补充一下, \hat{\sigma}^2 这种除以 n 作为总体方差的估计,有些时候也是有优势的,即使它是有偏的:比如,当 \mu 是已知时, \hat{\sigma}^2 能到达C-Rao下界的;当 \mu 未知时,则C-Rao下界无法达到。

另外,也可参考:https://blog.csdn.net/Hearthougan/article/details/77859173

模型计算验证:

通过计算机建造模型,在一定程度上“穷举”方法进行实测验证,可更直观的验证数学理论的结果,不严谨。

样本标准差分母为何是n-1 - python_backup - 博客园  https://www.cnblogs.com/webRobot/p/7722820.html

发布了306 篇原创文章 · 获赞 114 · 访问量 117万+

猜你喜欢

转载自blog.csdn.net/sjpljr/article/details/89292730