UA MATH564 概率论VI 数理统计基础3 卡方分布上
卡方分布
这里给出卡方分布的一般性定义。假设
X1,⋯,Xn互相独立,并且
Xi∼N(ai,1),则称
i=1∑nXi2∼χ2(n,δ)
其中
n代表样本数,
δ是非中心化参数
δ=i=1∑nai2
如果样本来自标准正态总体,则
δ=0,称之为中心化的卡方分布。这个定义不是很严谨,因为从统计量的构造来看它的分布应该是和
ai以及
n有关,所以要让记号
χ2(n,δ)在数学上有意义,我们需要证明卡方分布只依赖参数
n和
δ,可以参考陈希孺的数理统计引论引理1.1.1到公式1.1.1部分。
卡方分布的分布函数
记
k(x∣n,δ),K(x∣n,δ)为卡方分布
χ2(n,δ)的概率密度与累积分布函数,下面推导这两个函数的表达式。
中心化卡方分布
先讨论中心化的卡方分布,当
x>0时,根据上一讲讲过的多元正态分布的密度函数,可以写出:
K(x∣n,0)=P(X≤x)=∫B(2π)−n/2exp(−21y′y)dyB={y:y′y≤x}
按计算正态密度函数的积分的常规套路,将这个这个积分变换到球坐标
(r,θ1,⋯,θn−1)下进行,记
D(r,θ1,⋯,θn−1)=∂(r,θ1,⋯,θn−1)∂(y1,y2,⋯,yn)
用积分换元公式,
K(x∣n,0)=(2π)−n/2∫0x
∫0π⋯∫0π∫02πD(r,θ1,⋯,θn−1)e−r2/2drdθ1⋯dθn−1
这里简单介绍一下
n维的球坐标与直角坐标之间的转换。
y1=rcos(θ1)y2=rsin(θ1)cos(θ2)y3=rsin(θ1)sin(θ2)cos(θ3)⋯yn=rsin(θ1)⋯sin(θn−2)cos(θn−1)
它的Jacobi行列式为
D(r,θ1,⋯,θn−1)=∣∣∣∣∣∣11⋯−rsin(θ1)rcos(θ1)cos(θ2)0−rsin(θ1)sin(θ2)⋯⋯0000∣∣∣∣∣∣
(懒得打公式了)
从它的结构可以看出来,这是一个拟下三角行列式,它的值是比较好求的,最常规的方法是在第一行做Laplace展开,每一次展开都会得到更低阶的拟下三角行列式,然后再用Laplace展开(其实有点难算);另一种方法是用第一列消去第二列第一个元素,然后用第二列消去第三列第二个元素,最后把这个拟下三角行列式化简成一个对角行列式。这里直接给出结果:
D(r,θ1,⋯,θn−1)=rn−1i=1∏n−2[sin(θi)]n−1−i
所以
K(x∣n,0)=(2π)−n/2∫0x
∫0π⋯∫0π∫02πrn−1i=1∏n−2[sin(θi)]n−1−ie−r2/2drdθ1⋯dθn−1
现在继续计算积分。
这个积分有个非常有趣的性质,
θ1,⋯,θn−1的积分区域与
x无关,因此上面的积分可以记为
K(x∣n,0)=Cn∫0x
rn−1e−r2/2dr
根据归一性确定常数
Cn的值,
K(∞∣n,0)=1=Cn∫0∞rn−1e−r2/2dr=Cn∫0∞rn−2e−r2/2d(r2/2)=Cn2n/2∫0∞(r2/2)n/2−1e−r2/2d(−r2/2)=Cn2n/2Γ(n/2)⇒Cn=Γ(n/2)(1/2)n/2
因此
K(x∣n,0)=Γ(n/2)(1/2)n/2∫0x
rn−1e−r2/2drk(x∣n,0)=K′(x∣n,0)=Γ(n/2)(1/2)n/2x2n−1e−x/2
这就是
χ2(n)的分布与概率密度,很显然它也是Gamma分布族的一员,
χ2(n)=dΓ(2n,21)。
一般的卡方分布
当
δ=0时,用上面的方法计算做积分变换的时候会比较麻烦,为了计算简便一点,我们考虑一些有趣的结构。记
X=[X1,X2,⋯,Xn]′,
a=[a1,a2,⋯,an]′,则
X∼Nn(a,In),假设
Y=TX,构造
T为正交矩阵,则根据上一讲的性质:
Y∼Nn(Ta,In),假设构造的
T满足:
Ta=[δ,0,⋯,0]′,则
i=1∑nXi2=X′X=Y′(T−1)′(T−1)Y=Y′Y=Y12+i=2∑nYi2
记
Z=∑i=2nYi2,则
Y12与
Z独立,且
Z∼χ2(n−1),因此只要确定了
Y12的分布就可以用卷积算出
∑i=1nXi2的分布:
考虑
Y12的分布,
Y1∼N(δ,1),这非常简单,略去过程:
g(x)=22πx
1[exp(−2(x
−δ)2)+exp(−2(x
+δ)2)]
由此可以计算
k(x∣n,δ)=g(x)∗k(x∣n−1,0)=∫0xk(x−y∣n−1,0)g(y)dy
我们先把被积函数写出来欣赏一下,
k(x−y∣n−1,0)g(y)=Γ((n−1)/2)(1/2)(n−1)/2(x−y)2n−1−1e−(x−y)/222πy
1[exp(−2(y
−δ)2)+exp(−2(y
+δ)2)]
这种东西一看就不想去求它的积分,一个更加巧妙的方法是用级数来替换
g(x)中的指数函数,
g(x)=22π
1e−2δ2+xi=0∑∞(2i)!δ2ixi−21
这样被积函数就可以写成,
k(x−y∣n−1,0)g(y)=22π
1Γ((n−1)/2)(1/2)(n−1)/2e−2δ2+xi=0∑∞(2i)!δ2iyi−21(x−y)2n−1−1
虽然看上去更复杂了,但这个形式其实是非常好积分的,
k(x∣n,δ)=22π
1Γ((n−1)/2)(1/2)(n−1)/2e−2δ2+xi=0∑∞(2i)!δ2i∫0xyi−21(x−y)2n−1−1dy
现在仅剩的要积分的部分很明显就是beta函数的构造,这里更一般地表述一下这个技巧,要计算积分
∫0xya(x−y)bdy,做换元
t=y/x,可以得到
∫0xya(x−y)bdy=xa+b+1∫01ta(1−t)bdt=xa+b+1B(a+1,b+1)
其中
B(a+1,b+1)是beta函数,
B(a+1,b+1)=Γ(a+b+2)Γ(a+1)(b+1)
利用这个技巧可以把密度函数写出来:
k(x∣n,δ)=e−2δ2+xi=0∑∞2ii!δ2i2i+n/2Γ(i+n/2)xi+n/2−1
实际上这个密度函数写出来的意义也不大,可能只是展示一下求积分的技巧?