更多精彩文章,请关注作者微信公众号:码工笔记。
今天我们复习一下假设检验几种典型应用场景和计算方法。
一、假设检验的概念
假设检验,就是通过分析样本数据来检验某一个针对总体的论断是否成立。
- 待检验的针对总体的论断叫做零假设,一般用 表示。
- 与零假设相对立的假设叫做备选假设,一般用 表示。
一般来说,在假设检验过程中,会先预设 假设是成立的,从这里出发进行分析,直到有证据(样本数据和样本统计值)表明其不成立,才会拒绝该假设。
二、假设检验的一般步骤
-
建立零假设 和备选假设
-
从总体中随机选取出来一个样本集合,并针对样本集合计算出来一些样本统计值(如均值、标准差等)
-
根据不同场景,调用相应方法从样本统计值计算出检验值(具体方法见下节)
-
检验值是归一化以后的数据,表示的是当前样本统计值距离目标值相差几个标准差
-
检验值越远离中心点,则说明其发生的概率越小,如下图示(这里 就是检验值):
-
-
通过查表等方式,由检验值得到 p 值
- p 值表示在 成立时样本发生的概率
-
根据 p 值大小决定是否拒绝零假设
- 如果 p 值小于一定的阈值,则认为在 假设下发生了不太可能发生的事,以此为依据来拒绝
三、应用场景 & 检验值计算方法
1. 场景一:检验一个总体的均值大小
例如:某人声称成年人体重平均值为 70 公斤,现在我们要来检验这一论断的正确性,则有如下假设:
-
假设
其中:
- 表示真正的总体均值(所有成年人的体重均值)
- 表示 中假设的总体均值( )
-
-
检验值计算公式
其中:
- n 表示样本个数;
- 表示样本的平均值;
- 表示样本的标准差;
如果采样了 100 个样本,分别为 ,则有:
最后根据公式算出的 Z 就是检验值。
2. 场景二:检测一个总体中符合某条件的部分的占比
例如:某人声称所有成年人中体重大于70公斤的占比为 50%,我们要检验这个论断是否正确。
-
假设
其中:
- 表示声称中所假设的目标比例,这里就是 50%
-
-
检验值计算公式
其中:
- 代表符合条件(即体重大于70公斤)的个体在样本集合中的实际占比;
- n 表示样本个数
3. 场景三:比较两个总体的平均值
例如:某人声称成年人中吸烟与不吸烟者体重均值相同。
-
假设
其中:
- 和 分别表示总体 (吸烟者)和总体 (不吸烟者)的体重平均值
-
-
检验值计算公式
其中:
- 表示从总体 (吸烟者)中取出的样本的均值(平均体重)
- 表示从总体 (不吸烟者)中取出的样本的均值(平均体重)
- 表示从总体 (吸烟者)中取出的样本的方差
- 表示从总体 (吸烟者)中取出的样本的方差
- 表示从总体 (吸烟者)中取出的样本个数
- 表示从总体 (吸烟者)中取出的样本个数
4. 场景四:检验两个变量之差的平均值:两个变量为成对数据
例如:某人声称成年人早晨起床后与晚上睡觉前的体重相等。
遇到这种需要比较成对数据之差时,先将每个样本中的两个数据相减,得到一个新的样本集合,后续的分析基于这个新样本集合。此例中新样本集合包含的是原样本中每个人的早晚体重差。
-
假设
其中:
- 表示所有成年人(总体)早晚体重差的平均值
-
-
检验值计算公式
其中:
- 和 分别为样本集合中早晚体重差的均值和标准差
- 表示样本个数
5. 场景五:检验两个总体中符合某条件的部分的占比差异
例如:某人声称成年男性与成年女性中吸烟者的比例相同。
这里就有两个总体——男性与女性;各自抽样后得到的样本集合也有两个——男性样本与女性样本。
-
假设
-
-
检验值计算公式
其中:
- 是将所有样本(包括男、女)混合后,吸烟者占总人数的比例
- 表示男性样本中抽烟人数的占比
- 表示女性样本中抽烟人数的占比
- 表示男性样本的人数
- 表示女性样本的人数
四、检验方式
有了上一步计算出的检验统计值后,就可以查表得到 p 值了:
-
当样本数 较大时,在 Z 分布表中查询算出来的检验统计值,得到 p 值
-
当样本数 时,在自由度为 的 t 分布的表中查询检验统计值,得到 p 值
p 值代表的是当前样本在 成立的情况下发生的概率:
-
如果在某个场景下我们得到的 p 值太小(小于目标阈值),说明 假设成立的条件下发生了小概率事件,于是可以由此来拒绝 的假设。
-
如果 p 值 > 显著性水平,则说明样本代表的事件发生的概率不低,没有足够的证据拒绝 的假设。
Z 分布表:
![]()
t 分布表: