自由度（为什么样本方差自由度是n-1）

一概念、条件及目的

概念
要理解样本方差的自由度为什么是n-1,得先理解自由度的概念：
自由度，是指附加给独立的观测值的约束或限制的个数，即一组数据中可以自由取值的个数。
成立条件
所谓自由取值，是指抽样时选取样本，也就是说：只有当以样本的统计量来估计总体的参数时才有自由度的概念，直接统计总体参数时是没有自由度概念的。
目的
自由度概念，是为了在通过样本进行参数估计时，剔除系统误差，实现无偏估计。
设A’=g(X1,X2,…,Xn)是未知参数A的一个点估计量，若A’满足E(A’）= A ，则称A’为A的无偏估计量，否则为有偏估计量。所以，无偏估计就是系统误差为零的估计。
注：
如果看完以上释义仍觉得有些晦涩难懂，可以阅读下知乎上生动的解说：
比如我要对某个学校一个年级的上千个学生估计他们的平均水平（真实值，上帝才知道的数字），那么我决定抽样来计算。我抽出一个10个人的样本，可以计算出一个均值。那么如果我下次重新抽样，抽到的10个人可能就不一样了，那么这个从样本里面计算出来的均值可能就变了，对不对？因为这个均值是随着我抽样变化的，而我抽出哪10个人来计算这个数字是随机的，那么这个均值也是随机的。但是这个均值也会服从一个规律（一个分布），那就是如果我抽很多次样本，计算出很多个这样的均值，这么多均值的平均数（也就是均值的期望，期望的概念请参考：数学期望_张之海_CSDN）应该接近上帝才知道的真实平均水平。如果你能理解“样本均值”其实也是一个随机变量，那么就可以理解为这个随机变量的期望是真实值，所以无偏（这是无偏的定义，即这么多均值的平均数（样本均值）是真实值的无偏估计）；而它又是一个随机变量，只是估计而不精确地等于，所以是无偏估计量。[2]

二详解自由度

当样本数据的个数为n时，若样本平均数 x拔确定后，则附加给n个观测值的约束个数就是1个，一次只有n-1个数据可以自由取值，其中必有一个数据不能自由取值。按照这一逻辑，如果对n个观测值附加的约束个数为k个，自由度则为n-k。例如假设样本有3个值，即x1=2,x2=4,x3=9,则当 x拔 =5确定后，x1、x2、x3只有两个数据可以自由取值，另一个则不能自由取值，比如x1=6,x2=7,那么x3必然取2，而不能取其他值。
样本方差自由度为什么为n-1呢，因为在计算离差平方和 ∑(xi -x)2 时，必须先求出样本平均数 x拔，而 x拔则是附加给 ∑(xi -x)2 的一个约束，因此，计算离差平方和时只有n-1个独立的观测值，而不是n个。

三公式推导

有兴趣的，可以参考果壳网的博文，附上链接
http://www.guokr.com/question/468100/

参考文献：
[1] 为什么样本方差自由度(分母)为n-1
[2] 什么是无偏估计

自由度（为什么样本方差自由度是n-1）

一 概念、条件及目的

二 详解自由度

三 公式推导

猜你喜欢

一概念、条件及目的

二详解自由度

三公式推导