转载：关于显著性检验，你想要的都在这儿了！！（基础篇）

关于显著性检验，你想要的都在这儿了！！（基础篇）
无论你从事何种领域的科学研究还是统计调查，显著性检验作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域。笔者作为科研界一名新人也曾经在显著性检验方面吃过许多苦头。后来醉心于统计理论半载有余才摸到显著性检验的皮毛，也为显著性检验理论之精妙，品种之繁多，逻辑之严谨所折服。在此，特写下这篇博文，以供那些仍然挣扎在显著性检验泥潭的非统计专业的科研界同僚们参考。由于笔者本人也并非统计专业毕业，所持观点粗陋浅鄙，贻笑大方之处还望诸位业界前辈，领域翘楚不吝赐教。小可在此谢过诸位看官了。
本篇博文致力于解决一下几点问题，在此罗列出来：1.什么是显著性检验？ 2.为什么要做显著性检验？ 3.怎么做显著性检验？下面就请跟随笔者的步伐一步步走入显著性检验的“前世与今生”。

一：显著性检验前传：什么是显著性检验？它与统计假设检验有什么关系？为什么要做显著性检验？
“显著性检验”实际上是英文significance test的汉语译名。在统计学中，显著性检验是“统计假设检验”（Statistical hypothesis testing）的一种，显著性检验是用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。实际上，了解显著性检验的“宗门背景”（统计假设检验）更有助于一个科研新手理解显著性检验。“统计假设检验”这一正名实际上指出了“显著性检验”的前提条件是“统计假设”，换言之“无假设，不检验”。任何人在使用显著性检验之前必须在心里明白自己的科研假设是什么，否则显著性检验就是“水中月，镜中花”，可望而不可即。用更通俗的话来说就是要先对科研数据做一个假设，然后用检验来检查假设对不对。一般而言，把要检验的假设称之为原假设，记为H0；把与H0相对应（相反）的假设称之为备择假设，记为H1。
如果原假设为真，而检验的结论却劝你放弃原假设。此时，我们把这种错误称之为第一类错误。通常把第一类错误出现的概率记为α
如果原假设不真，而检验的结论却劝你不放弃原假设。此时，我们把这种错误称之为第二类错误。通常把第二类错误出现的概率记为β
通常只限定犯第一类错误的最大概率α，不考虑犯第二类错误的概率β。我们把这样的假设检验称为显著性检验，概率α称为显著性水平。显著性水平是数学界约定俗成的，一般有α =0.05,0.025.0.01这三种情况。代表着显著性检验的结论错误率必须低于5%或2.5%或1%（统计学中，通常把在现实世界中发生几率小于5%的事件称之为“不可能事件”）。（以上这一段话实际上讲授了显著性检验与统计假设检验的关系）
为了方便接下来的讲授，这里举一个例子。赵先生开了一家日用百货公司，该公司分别在郑州和杭州开设了分公司。现在存在下列数据作为两个分公司的销售额，集合中的每一个数代表着一年中某一个月的公司销售额。
郑州分公司Z = {23,25,26,27,23,24,22,23,25,29,30}
杭州分公司H = {24,25,23,26,27,25,25,28,30,31,29}
现在，赵先生想要知道两个公司的销售额是否有存在明显的差异（是否存在郑州分公司销售额>杭州分公司销售额，抑或反之），以便对接下来公司的战略业务调整做出规划。下属们知道赵老板的难处，纷纷建议“只需要求平均值就知道哪个分公司的销售额更大了”。但是作为拥有高学历的赵先生懂得这样一件哲学即“我们生活在概率的世界之中”。那也就意味着，平均值并不能够说明什么问题，即便杭州分公司的销售额平均值大于郑州分公司的销售额平均值仍然不能说明杭州分公司的销售额一定就大于郑州分公司的销售额，因为“这样一种看似存在的大于关系实质上是偶然造成的而并不是一种必然”。
赵先生最终决定，使用方差验检查这两个数据。（请先忽略为什么用方差检验，检验方法的选择下文中会详述）
最后赵先生发现，方差检验的p 值= 0.2027，那也就意味着，虽然杭州分公司的年平均销售额26.63大于郑州分公司的销售额25.18，但是实质上，两个分公司的销售额并没有明显的差异。（相信此时的你心中有万千草泥马奔过：方差检验是怎么做的？p值是什么鬼？为什么p=0.2027意味着销售额没有明显差异？信息量好大肿么办？）

不要急，不要慌，让我们从头来过，整理一下赵先生这里究竟发生了什么。这里很有必要了解一下根植于赵先生思维里的“慢动作”。
第一点：如上文所述的一样，“无假设，不检验”，赵先生做了什么样的假设（Hypothesis）？
由于赵先生想要知道两个公司的销售额是否有存在明显的差异，所以他的假设就是“样本集Z（郑州分公司）和样本集H（杭州分公司）不存在显著性差异，换言之这两个集合没有任何区别（销售额间没有区别）！”这就是赵先生的假设。那么问题来了，为什么赵先生要假设这两个样本集之间不存在任何区别，而不是假设这两个样本集存在区别。因为这个假设（Hypothesis）正是方差检验的原假设（null hypothesis）。那么问题又来了，什么是原假设。所谓原假设是数学界为了方便讨论而默认的“原始的假设”。没有什么为甚么可言，约定俗成罢了。
第二点：p值怎么回事？
这里并不用管p值是怎样得到的，直接给出结论。在显著性水平α =0.05的情况下，p>0.05接受原假设，p值＜0.05拒绝原假设。我们的原假设是样本集Z和样本集H间不存在显著性差异，但是由于p=0.2027＞0.05，所以接受原假设，即样本集Z和样本集H间不存在显著性差异。当然有接受就有拒接，如果这里的p值小于0.05，那么就要拒绝原假设，即集合Z和集合H间存在显著性差异。
第三点：怎么做方差检验以及为何做方差检验之后再细讲，这里暂且不表。
在这一章节的最后，给出本章的两个问题的答案，相信你现在已经可以理解：
1什么是统计假设检验？
所谓统计假设检验就是事先对总体（随机变量）的参数或总体分布形式做出一个假设，然后利用样本信息来判断这个假设是否合理。而把只限定第一类错误概率的统计假设检验就称之为显著性检验。在上例中，我们的假设就是一种显著性检验。因为方差检验不适用于估计参数和估计总体分布，而是用于检验试验的两个组间是否有差异。而方差检验正是用于检测我们所关心的是这两个集合（两个分布）的均值是否存在差异。
2.为什么要做显著性检验？
因为我们想要判断样本与我们对总体所做的假设之间的差异是纯属机会变异，还是由我们所做的假设与总体真实情况之间不一致所引起的。在我们的例子中，差异就是H的均值要高于Z的均值，但是最终的结论p>0.05证明，这个差异纯属机会变异（H均值>Z均值是偶然的，当H和Z的采样点数趋于无穷多时，H的均值会趋近等于Z的均值）而不是假设与真实情况不一致。如果p值<0.05，那么也就意味着我们的假设（H集合和Z集合没差别）与真实情况不一致，这就使得假设不成立，即H集合和Z集合有差别。

二：怎么做显著性检验？（基于MATLAB）
显著性检验可以分为参数检验和非参数检验。参数检验要求样本来源于正态总体（服从正态分布），且这些正态总体拥有相同的方差，在这样的基本假定（正态性假定和方差齐性假定）下检验各总体均值是否相等，属于参数检验。
当数据不满足正态性和方差齐性假定时，参数检验可能会给出错误的答案，此时应采用基于秩的非参数检验。
参数检验的方法及其相应知识点的解释（这里只给出参数检验中常见的方差分析）：
方差分析主要分为’①单因素一元方差分析’； ‘②双因素一元方差分析 ‘； ‘③多因素一元方差分析 ‘； ‘④单因素多元方差分析 ‘。下面一节对各种方差分析的实现方法进行介绍。但在介绍之前，我要首先“剧透”一下两个重要的点，理解这些点有助于区别不同类型的方差分析。
什么叫做因素，什么叫做元？
先解释一下什么叫做”元”。我假定正在看这篇博文的人一定具有小学以上文化水平，那么想必你一定对“一元二次方程”“二元一次方程”“多元一次方程”这种概念不陌生。所谓的“元”，正是指未知变量的个数。在统计假设检验中，仍然把待检验的未知变量称之为“元”而把影响未知变量的行为（事件）称之为“因素”。有过机器学习基础的同学可以把“元”和“因素”分别理解成机器学习中的“特征个数”和“标签个数”。拥有多个特征便是“多元”，而拥有多个标签便是“多因素”。

①单因素一元方差分析的方法和案例：
相关MATLAB函数：
函数一：anova1( X, Group, displayopt)
参数解释：在第一种用法中，X是一个n行1列的数组，Group也是一个n行1列的数组。X为待检验的样本集，这个样本集中包括若干个对照组和实验组的全部数据。那么机器怎么知道哪个数据属于哪个组呢？很简单，通过Group这个列向量一一对应指明即可。一下这个例子来自于MATLAB的help文档，在这里用于实例说明：
假定现在有三组数据
组一（st）：82 86 79 83 84 85 86 87
组二（al1）：74 82 78 75 76 77
组三（al2）：79 79 77 78 82 79
现在需要对这三组数据做方差检验，使用anova1函数的方法如下
1.首先将所有的数据放在同一个数组strength中：

strength = [82 86 79 83 84 85 86 87 74 82 78 75 76 77 79 79 77 78 82 79];
2.设置对应与strength对应位置的标签为alloy：
alloy = {‘st’,’st’,’st’,’st’,’st’,’st’,’st’,’st’,’al1’,’al1’,’al1’,’al1’,’al1’,’al1’,’al2’,’al2’,’al2’,’al2’,’al2’,’al2’};
3.调用anova1函数
p = anova1(strength,alloy)

最终得到的结果会是一个数值和两幅图，一个值是p值。p值得看法在上文已经介绍过，这里不再细细的介绍。在本例中，p的值如下
p =
1.5264e-004
显然，从p值看，三组值之间存在显著性差异。有一点必须提一下：这里p存在显著性差异并不意味着三组之间两两都存在显著性差异，而只是说明显著性差异在这三组之间存在。
第一幅图是一张表，这张表被称之为ANOVA表。相信许多非统计专业的同学见到ANOVA表的一瞬间是崩溃的，一堆问题奔涌而出：
Source是什么鬼？SS是什么鬼，df是什么鬼，MS是什么鬼，F是什么鬼，Prob>F是什么鬼，etc.
这里为了解决“什么鬼”的问题，对这张表给出详细的解释：
这里写图片描述
Source表示方差来源（谁的方差），这里的方差来源包括Groups（组间），Error（组内），Total（总计）；
SS（Sum of squares）表示平方和
df（Degree of freedom）表示自由度
MS（Mean squares）表示均方差
F表示F值（F统计量），F值等于组间均方和组内均方的比值，它反映的是随机误差作用的大小。
Prob>F表示p值
这里需要引出两个小问题：第一个小问题是F值怎么使用，第二个小问题是p值和F值的关系是什么？
率先普及一下p值和F值之间的关系：
F实际值>F查表值，则p<=0.05
F实际值

转载： 关于显著性检验，你想要的都在这儿了！！（基础篇）

猜你喜欢

转载：关于显著性检验，你想要的都在这儿了！！（基础篇）