统计学习(五):非参数检验

Kolmogorov - Smirnov 检验

Kolmogorov - Smirnov 检验,简称 K-S 检验,检验一个样本是否来自某连续分布(参考分布)。

定义5.1 Kolmogorov - Smirnov 统计量

设样本 x1,x2,,xn 来自某分布 F , 经验分布( empirical distribution )为 Fn ,
称统计量 Dn=supx|Fn(x)F(x)| K-S 统计量。其中,
Fn(x)=1ni=1nI(xix) .
Glivenko-Cantelli 定理,如果样本来自总体 F , 那么

Dn0,a.s.n

定义5.2 Brownian Bridge

称一个连续时间的随机过程 {B(t);0tT} 是一个布朗桥( Brownian ), 如果对
t[0,T]BtdWt|WT=0 ,

其中, wt,t[0,T] 是一个维纳( Wiener Process ), 即布朗运动,也就是,

WtN(0,t),t0 . 易见, B(0)=B(T)=0 , 可以证明,

B(t)=W(t)tTW(T),t[0,T] .

定义5.3 Kolmogrov 分布

K=sup0t1|B(t)| , 其中 B(t) 是一个布朗桥( Brownian Bridge ),
称累积分布

P(Kx)=12k=1(1)k1e2K2x2=2πxk=1e(2K1)2π2/8x2

K 分布。

定理5.1 H0 下,即样本来自于假设分布 F(x) , 有

nDndsupt|B(F(t))|,n

这里, B(t) 是一个布朗桥。

推论5.1 如果 F 是连续的,那么 nDn 收敛于 K-分布,且不依赖于 F

定理5.2 Kolmogorov-Smirnov 检验

给定水平 α , 拒绝域 {nDn>Kα} , 其中 Kα K-分布的 α 分位点,即 P(KKα)=1α .

定理5.3 两样本的 K-S 检验

检验两个样本是否来自同一分布,即检验两个分布是否相同。构造 K-S 统计量

Dn,n=supx|F1,n(x)F2,n(x)|

F1,n,F2,n 分别是两个容量为 n,n 的样本的经验分布。
给定水平 α , 拒绝域 {Dn,n>c(α)n+nnn} . c(α) 由下表给出:

α 0.10 0.05 0.025 0.01 0.005 0.001
c(α) 1.22 1.36 1.48 1.63 1.73 1.95

Mann-Whitney U 检验

Mann-Whitney U 检验,也称 Mann-Whitney-Wilcoxon test, Wilcoxon rank-sum testWilcoxon-Mann-Whitney test, 是一种非参数检验,用来比较两个样本是否来自同一总体,或检验一个总体比另一个总体倾向于有更大的值。不需要假定总体是正态的。

假定与假设的正式表述

(1). 来自两组的所有观测是相互独立的;

(2). 观测是有序的( ordinal );

(3). H0: 两个总体分布相同, 在 H0 下, P(X>Y)=P(Y>X)

(4). H1: P(X>Y)P(Y>X) 双侧检验,或 H1: P(X>Y)>P(Y>X) 单侧检验

计算

  • 小样本情况(样本量不超过20)

设样本 x1,x2,,xn1;y1,y2,,yn2 分别来自两个总体。合并这两个样本并排序(从小到大),如果样本中有结( ties ), 则结的秩为未排秩的中点( midpoint ). 例如,样本
3, 5, 5, 9, 秩为 1, 2.5, 2.5, 4.

定理5.4 样本1的 U 统计量 U1=R1n1(n1+1)2 , R1 为样本1的秩和;
样本2的 U 统计量 U2=R2n2(n2+1)2 , R2 为样本2的秩和。

U1 表示在 (xi,yj)(i=1,2,,n1;j=1,2,,n2) n1n2 个数对中,
X Y 大的个数。同理, U2 表示 Y X 大的个数。

证明: 记样本 x1,x2,,xn1 的次序统计量 X(1)x(2)x(n1) ,
在混合样本的秩为 r1,r2,,rn1 , 对应的次序统计量 r(1)r(2)r(n1) ,
则有

#{yi<x(1),i=1,2,,n2}=r(1)1

#{yi<x(2),i=1,2,,n2}=r(2)2

#{yi<x(n1),i=1,2,,n2}=r(n1)n1

其中, #{} 表示集合 {} 中的元素个数,故

U1=i=1n1rjn1(n1+1)2=i=1n1r(j)j=1n1j=j=1n1(r(j)j)
.

U=min{U1,U2} , 给定水平 α , 拒绝域 {U<u(n1,n2,α)} ,
u(n1,n2,α) 为临界值,查表可得。

  • 大样本情况
    U=min{U1,U2} ,
    μU=E(U)=n1n22,σU=n1n2(n1+n2+1)12 , 那么

Z=UμUσUdN(0,1) .

如果秩中存在结,则修正标准差 σcorr=n1n212[(n+1)i=1kt3itin(n1)]

其中, n=n1+n2 , k 是不同的秩数, ti 为共享秩 i 的项数。如果秩中只存在少量的结,则可忽略结。

Wilcoxon 符号秩检验

Wilcoxon 符号秩检验 Wilcoxon signed-rank test 用来比较两个相关的样本,配对样本,或一个样本的重复测量,检验是否它们的总体均值秩改变。

假定

(1). 数据成对,来自同一总体;

(2). 每一对数据随机选择且独立。

检验步骤

(x1,i,x2,i),i=1,2,,N 是配对数据,检验

H0:0H1:

(1).计算 |x2,ix1,i| sgn(x2,ix1,i) , i=1,2,,N .

(2). 排除 |x2,ix1,i|=0 对,设剩余 Nr 个对

(3). 按绝对值差从小到大顺序,排序这 Nr

(4). 排序对,结对取经历秩的平均数,记为 Ri,i=1,2,,Nr

(5). 令检验统计量 W=i=1Nr|sgn(x2,ix1,i)Ri|

(6). 在 H0 下, WF , μ=xdF(x)=0 ,

σ2=(xμ)2dF(x)=Nr(Nr+1)(2Nr+1)6

(7). WdN(0,1),Nr .

实际上, 当 Nr>10 , 令 Z=Wσw,σw=σ2 , 那么,

拒绝 H0 , 如果 |Z|>zα2

例子: 配对数据

i x2,i x1,i sgn abs
1 125 110 1 15
2 115 122 -1 7
3 130 125 1 5
4 140 120 1 20
5 140 140 0 0
6 115 124 -1 9
7 140 123 1 17
8 125 137 -1 12
9 140 135 1 5
10 135 145 -1 10

按绝对差排序数据

i x2,i x1,i sgn abs ri sgnri
5 140 140 0 0
3 130 125 1 5 1.5 1.5
9 140 135 1 5 1.5 1.5
2 115 122 -1 7 3 -3
6 115 124 -1 9 4 -4
10 135 145 -1 10 5 -5
8 125 137 -1 12 6 -6
1 125 110 1 15 7 7
7 140 123 1 17 8 8
4 140 120 1 20 9 9

Nr=101=9 , |W|=|1.5+1.53456+7+8+9|=9 ,

|W|<Wα=0.05,9,=35 , 故不能拒绝 H0 .

阅读更多精彩内容,请关注微信公众号“统计学习与大数据”!

猜你喜欢

转载自blog.csdn.net/wong2016/article/details/73888024