假设检验(Hypothesis Testing)

假设检验的定义

假设检验:先对总体的某个指标提出某种假设,然后利用样本数据判断假设是否成立。在逻辑上,假设检验采用了反证法,即先提出假设,再通过适当的统计学方法证明这个假设基本不可能是真的。(说“基本”是因为统计得出的结果来自于随机样本,结论不可能是绝对的,所以我们只能根据概率上的一些依据进行相关的判断。)

假设检验依据的是小概率思想,即小概率事件在一次试验中基本上不会发生。也就是说当假设的可能性小于认定的某一标准的话,我们拒绝该假设,反之我们则说没有足够的证据拒绝该假设。

如果样本数据拒绝该假设,那么我们说该假设检验结果具有统计显著性。一项检验结果在统计上是“显著的”,意思是指样本和总体之间的差别不是由于抽样误差或偶然而造成的。

假设检验的术语

零假设(null hypothesis):是试验者想收集证据予以反对的假设,也称为原假设,通常记为 H0

例如:零假设是测试版本的指标均值小于等于原始版本的指标均值。

备择假设(alternative hypothesis):是试验者想收集证据予以支持的假设,通常记为H1或 Ha

例如:备择假设是测试版本的指标均值大于原始版本的指标均值。

双尾检验(two-tailed test):如果备择假设没有特定的方向性,并含有符号“≠”,这样的检验称为双尾检验。

例如:零假设是测试版本的指标均值等于原始版本的指标均值,备择假设是测试版本的指标均值不等于原始版本的指标均值。

单尾检验(one-tailed test):如果备择假设具有特定的方向性,并含有符号 “>” 或 “<” ,这样的检验称为单尾检验。单尾检验分为左尾(lower tail)和右尾(upper tail)。

例如:零假设是测试版本的指标均值小于等于原始版本的指标均值,备择假设是测试版本的指标均值大于原始版本的指标均值。

指标(indicator):用作比较的一个标准。

例如:指标是一天内用户在某页面停留时间的均值。

检验统计量(test statistic):是在概率密度分布图上的分位数。这个分位数在实际计算中比较麻烦,它需要对数据分布的密度函数积分来获得。

例如:Z值、t值、F值、卡方值。

显著性水平(significance level):错误拒绝零假设的临界概率,即犯第一类错误的最大概率,用α表示。

例如:在5%的显著性水平下,样本数据拒绝原假设。

置信度(confidence level):正确接受零假设的概率,即1-α。

例如:95%的置信度是有95%的把握认为测得的样本均值非常接近总体的期望。

统计检验力(power):正确拒绝零假设的概率,即1-β。当检验结果是没有足够的证据拒绝零假设时,人们更关注统计检验力,统计检验力越大,犯错误的可能性越小。

临界值(critical value):与检验统计量的具体值进行比较的值。

临界区域(critical region):拒绝原假设的检验统计量的取值范围,也称为拒绝域(rejection region),是由一组临界值组成的区域。如果检验统计量在拒绝域内,那么我们拒绝原假设。

8f3a9a0d33181a91974fe7a609978709_b

置信区间(confidence interval):包含总体参数的随机区间。我们用样本来对总体进行估计,如果只是一个估计值的话,那就称为点估计。但是每次随机抽样计算出的结果都不一样,因此点估计不一定准,这时用一个区间来对总体进行估计会更准确。

例如:95%的置信度表明有95%的确信度相信置信区间包含总体参数(假设进行100次抽样,有95次计算出的置信区间包含总体参数)。

P值(p-value):在零假设为真时所得到的样本观察结果或获得更极端结果的概率。

左尾检验的P值为检验统计量x小于样本统计值C的概率,即:P = P( x < C)
右尾检验的P值为检验统计量x大于样本统计值C的概率,即:P = P( x > C)
双尾检验的P值为检验统计量x落在样本统计值C为端点的尾部区域内的概率的2倍,即:P = 2P( x > C) (当C位于分布曲线的右端时) 或P = 2P( X< C) (当C 位于分布曲线的左端时) 。若X 服从正态分布和t分布,其分布曲线是关于纵轴对称的,故其P 值可表示为P = P{| X| > C}

假设检验的两类错误

第 I 类错误(弃真错误):零假设为真时错误地拒绝了零假设。第 I 类错误的最大概率记为 α(alpha)。

第 II 类错误(取伪错误):零假设为假时错误地接受了零假设。第 II 类错误的最大概率记为 β(beta)。

4dd051bba151b3273fb1711c31abb9d7_b

在假设检验中,我们可能在决策上犯这两类错误。一般来说,在样本确定的情况下,任何决策无法同时避免这两类错误的发生,即在避免第一类错误发生的同时,会增大第二类错误发生的几率,或者在避免第二类错误发生的同时,会增大第一类错误发生的几率。

在这两类错误中,人们更重视第 I 类错误。因此在大多数情况下,人们会控制第一类错误发生的概率,所以 α 的取值应尽可能地小。在进行假设检验时,人们通过事先给定显著性水平α的值来控制第一类错误发生的概率,常用的 α 值有 0.01,0.05,0.1。

假设检验的步骤

1,定义总体
2,确定原假设和备择假设
3,选择检验统计量(确定假设检验的种类)
4,选择显著性水平
5,从总体进行抽样,得到一定的数据
6,根据样本数据计算检验统计量的具体值
7,依据所构造的检验统计量的抽样分布,确定临界值和拒绝域
8,比较检验统计量的值与临界值,如果检验统计量的值在拒绝域内,则拒绝原假设

假设检验的决策标准

由于检验是利用事先给定显著性水平的方法来控制犯错概率的,所以对于两个数据比较相近的假设检验,我们无法知道哪一个假设更容易犯错,即我们通过这种方法只能知道根据这次抽样而犯第一类错误的最大概率,而无法知道具体在多大概率水平上犯错。计算P值有效的解决了这个问题,P值其实就是按照抽样分布计算的一个概率值,这个值是根据检验统计量计算出来的。通过直接比较P值与给定的显著性水平α的大小就可以知道是否拒绝假设,显然这就代替了比较检验统计量的具体值与临界值的大小的方法。而且通过这种方法,我们还可以知道在P值小于α的情况下犯第一类错误的实际概率是多少。假如P=0.03<α(0.05),那么拒绝假设,这一决策可能犯错的概率就是0.03。需要指出的是,如果p>α,那么假设不被拒绝,在这种情况下,第一类错误并不会发生。

因此假设检验的第6,7,8步可以改成:6,根据样本数据计算检验统计量的具体值和相应的P值;7,将给定的显著性水平α与P值比较,作出结论:如果α > p值,则在显著性水平α下拒绝原假设。

假设检验的种类

主要包括:Z检验,t检验,卡方检验,F检验。

下面分别来看一下这四种假设检验:

Z检验(Z test)

Z检验用于检验样本和总体的均值是否不同或者两个总体的均值是否不同。其需要事先知道总体方差,并且样本数量要足够多。检验统计量z值的分布服从正态分布。

由于t检验同时适用于大样本和小样本的情况(样本数在30个以上就可认为是大样本;反之则为小样本),因此这里略过Z检验,主要讨论t检验。

t检验(t test)

t检验分为单样本t检验,配对t检验和独立样本t检验。

单样本t检验(One Sample T-Test:用样本均值和总体均值进行比较,来检验样本与总体之间的差异性。

是随机样本均值,μ0是总体均值,s是样本标准差,n是样本中的观察值数量,自由度为n-1)

配对t检验(Paired Sample T-Test):用样本差值均数与总体差值均数进行比较,来检验以下几种情形: 1,两个同质受试对象分别接受两种不同处理后的差异;2,同一受试对象接受两种不同处理后的差异;3,同一受试对象接受处理前后的差异。

如果是两个同质受试对象,那么就是2个相关联的样本各被测量1次,组成一对观测值;如果是同一受试对象,那么就是这个样本被测量2次,组成一对观测值。配对t检验的本质是先计算成对观测值之间的差异,之后执行单样本t检验。

 (d为每对数据的差值,d¯为样本差值的均数Sd¯为样本差值均数的标准差,即样本差值的标准误差,Sd为样本差值的标准差,n为成对观测值的对数,自由度为n-1)

独立样本t检验(Independent Samples T-Test):用从两个不同总体抽取出的样本的均值进行比较,来检验两个总体之间的差异性。其又分为方差相等和方差不相等这两种情况。

方差相等(Equal Variance or pooled T-Test):每组数据的样本数量相同,或者两组数据的方差相差不大。

 

 

方差不相等(Unequal Variance T-Test):每组数据的样本数量不同,并且两组数据的方差相差较大。此假设检验亦称为Welch's t-test

t检验的前提:如果是单样本t检验,那么样本必须取自正态分布的总体;如果是配对t检验,那么两组样本之间必须相互关联,且两组样本均取自正态分布的总体;如果是独立样本t检验,那么两组样本之间必须相互独立,且两组样本均取自正态分布的总体,此外还需利用F检验进行两总体方差的同质性判断。

卡方检验(chi-square test)

卡方检验分为适合度检验和独立性检验。

适合度检验(Goodness-of-Fit Test):用样本中各个类别的观察值与期望值进行比较,来检验实际结果与期望结果之间的差异性。(分为单样本---即检验样本和总体之间的差异性和双样本---即检验两个总体之间的差异性)

适合度检验H0是:观察频数与期望频数没有差别。

建立四格表,表里填写相应的观察频数和期望频数。

计算χ2值:(O代表观察频数,E代表期望频数)。如果统计量(χ2)的值很小,说明观察频数和期望频数之间的差别不显著,统计量越大,差别越显著。

根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝原假设;否则不能拒绝原假设。

独立性检验(Independence Test):用样本中两个类别的观察值与期望值进行比较,来检验样本中两个类别变量之间是否相互独立。

适合度检验H0是:两个类别变量之间没有关联。

建立列联表,一个变量作为行,另一个变量作为列。例如:

 
207 282
231 242

(表里填写的是分别喜欢猫或狗的男女人数,用于检验男女性别和喜欢的动物之间是否有关联)

计算出期望频数。

计算χ2值:,df=(行数 − 1)*(列数 − 1)

根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果P值很小,说明两个类别变量之间有关联,应当拒绝原假设。

卡方检验的前提:卡方检验属于非参数检验,不存在具体参数,且不需要有总体服从正态分布的假设。

F检验(F test)

F检验分为方差齐性检验和方差分析。

方差齐性检验(F-Test for Equality of Variances):用从两个不同总体抽取出的样本的方差进行比较,来检验两个总体的方差是否相同。

F = s^2_1 / s^2_2

s2 是样本方差:s^2 = \sum(x - \overline{x})^2 / (n-1)

如果这两个样本来自于方差差不多大的总体,那么F值就会接近于1;相反,如果F值非常大,那就说明两个总体差异较大。

方差齐性检验的前提:两组样本均取自正态分布的总体(注:由于F检验对于数据的正态性非常敏感,因此在检验方差齐性的时候,Levene检验的稳健性要优于F检验。Levene检验也可用于多个样本方差的比较。)

方差分析(Analysis of Variance,ANOVA):用从两个或两个以上不同总体(各个总体的方差差不多大 )抽取出的样本的均值进行比较,来检验多个总体之间的差异性。其又分为单因素方差分析和多因素方差分析。

这里主要说一下单因素方差分析:,即将多个样本之间的均方差(组间均方差)除以样本内部的均方差(组内均方差)。(其中是总均值,,k是样本数量,N是k个样本的总观察值的数量)

方差分析的前提:与独立样本t检验中的pooled test前提条件相同,即总体需要满足正态性和方差齐性。

注:如果总体方差不齐,可以用Welch's ANOVA,具体请见:http://www.real-statistics.com/one-way-analysis-of-variance-anova/welchs-procedure/

猜你喜欢

转载自www.cnblogs.com/HuZihu/p/9692828.html