版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/bitcarmanlee/article/details/87102314
1.相关的数学符号
为了说明上述问题,先定义如下数学符号
总体的均值为
μ
总体的方差为
σ2
样本为随机变量
x1,x2,⋯,xn
样本的均值
xˉ
样本的方差
s2
2.样本方差的定义
在各种概率统计的教材中,都有样本方差的定义:
s2=n−11i=1∑n(xi−xˉ)2
大家第一眼看到这个公式估计都会有疑问:为什么分母是n-1而不是n?教科书上的解释也很清楚但也很简单:样本方差中分母为n-1的目的是为了让方差的估计是无偏估计(unbiased estimator)。那么问题在于:
为什么分母为n-1的时候方差的估计是无偏估计?
从数学公式上说,要证明方差的估计是无偏估计,即
E(s2)=σ2
3.公式推导
下面对公式进行一下简单推导
s2=n1i=1∑n(xi−xˉ)2=n1i=1∑n((xi−μ)2−(μ−xˉ))2=n1i=1∑n(xi−μ)2−n2i=1∑n(xi−μ)(μ−xˉ)+n1i=1∑n(μ−xˉ)2=n1i=1∑n(xi−μ)2−2(xˉ−μ)(μ−xˉ)+(μ−xˉ)2=n1i=1∑n(xi−μ)2−(μ−xˉ)2≤n1i=1∑n(xi−μ)2
从上面的推导可以看出,只有当
xˉ=μ时,等号才成立。否则一定有
s2=n1i=1∑n(xi−xˉ)2<n1i=1∑n(xi−μ)2
在上述的不等式中,
n1∑i=1n(xi−μ)2是真正的方差。但是一般情况下,我们不知道整体的均值是多少,所以会通过样本的均值去代替整体的均值。从上面的推导过程来看,如果直接用样本的均值代替整体均值,对方差进行估计的时候会是有偏估计,会使估计的方差比真正的方差偏小。为了得到无偏估计的方差,所以要对上面的方差计算公式进行修正。最后修正的公式即为:
s2=n−11i=1∑n(xi−xˉ)2
4.为什么修正以后的分母是n-1
由前面的推导可知
E(s2)=E(n1i=1∑n(xi−xˉ)2)=E[n1i=1∑n(xi)2−n2i=1∑nxixˉ+n1i=1∑n(xˉ)2]=E[n1i=1∑n(xi)2−xˉ2]=E[n1i=1∑n(xi)2]−E(xˉ2)=E(xi2)−E(xˉ2)=D(xi2)+(Exi)2−(D(xˉ2)+(Exˉ)2)
容易有如下结论
E(xˉ)=xˉ=E(xi),D(xˉ)=n1D[x](i=1,2,⋯,n)
继续对上面式子处理可知:
E(s2)=D(x)−n1D(x)=nn−1D(x)=nn−1σ2
所以有:
n−1nE(s2)=n−1n×nn−1D(x)=σ2
最后可知样本方差修正以后的公式为:
s2=n−1n(n1i=1∑n(xi−xˉ)2)=n−11i=1∑n(xi−xˉ)2