假设检验的几种典型应用场景和计算方法

更多精彩文章,请关注作者微信公众号:码工笔记

今天我们复习一下假设检验几种典型应用场景和计算方法。

一、假设检验的概念

假设检验,就是通过分析样本数据来检验某一个针对总体的论断是否成立。

  • 待检验的针对总体的论断叫做零假设,一般用 H 0 H_0 表示。
  • 与零假设相对立的假设叫做备选假设,一般用 H a H_a 表示。

一般来说,在假设检验过程中,会先预设 H 0 H_0 假设是成立的,从这里出发进行分析,直到有证据(样本数据和样本统计值)表明其不成立,才会拒绝该假设。

二、假设检验的一般步骤

  1. 建立零假设 H 0 H_0 和备选假设 H a H_a

  2. 从总体中随机选取出来一个样本集合,并针对样本集合计算出来一些样本统计值(如均值、标准差等)

  3. 根据不同场景,调用相应方法从样本统计值计算出检验值具体方法见下节

    • 检验值是归一化以后的数据,表示的是当前样本统计值距离目标值相差几个标准差

    • 检验值越远离中心点,则说明其发生的概率越小,如下图示(这里 ± 2 \pm2 就是检验值):

      “A bell-shaped curve depicting the test statistics that lie roughly within 2 standard errors; Ha is the not-equal-to alternative, resulting in Ho being rejected.”

  4. 通过查表等方式,由检验值得到 p 值

    • p 值表示在 H 0 H_0 成立时样本发生的概率
  5. 根据 p 值大小决定是否拒绝零假设 H 0 H_0

    • 如果 p 值小于一定的阈值,则认为在 H 0 H_0 假设下发生了不太可能发生的事,以此为依据来拒绝 H 0 H_0

三、应用场景 & 检验值计算方法

1. 场景一:检验一个总体的均值大小

例如:某人声称成年人体重平均值为 70 公斤,现在我们要来检验这一论断的正确性,则有如下假设:

  • 假设

    • H 0 : μ = μ 0 H_0: \mu=\mu_0

    • H a : μ > μ 0 H_a: \mu>\mu_0

    其中:

    • μ \mu 表示真正的总体均值(所有成年人的体重均值)
    • μ 0 \mu_0 表示 H 0 H_0 中假设的总体均值( μ 0 = 70 \mu_0 = 70
  • 检验值计算公式

    Z = x ˉ μ 0 σ n Z = \frac{\bar{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}}

    其中:

    • n 表示样本个数;
    • x ˉ \bar{x} 表示样本的平均值;
    • σ \sigma 表示样本的标准差;

    如果采样了 100 个样本,分别为 x 1 , x 2 , . . . , x 100 x_1, x_2, ..., x_{100} ,则有:

    • n = 100 n=100
    • x ˉ = x 1 + x 2 + . . . + x 100 100 \bar{x} = \frac{x_1 + x_2 + ... + x_{100}}{100}
    • σ = i = 1 100 ( x i x ˉ ) 2 n 1 \sigma = \sqrt{\frac{\sum_{i=1}^{100}(x_i - \bar{x})^2}{n-1}}

    最后根据公式算出的 Z 就是检验值。

2. 场景二:检测一个总体中符合某条件的部分的占比

例如:某人声称所有成年人中体重大于70公斤的占比为 50%,我们要检验这个论断是否正确。

  • 假设

    • H 0 : p = p 0 H_0:p = p_0

    • H a : p p 0 H_a:p \neq p_0

    其中:

    • p 0 p_0 表示声称中所假设的目标比例,这里就是 50%
  • 检验值计算公式

    p ^ p 0 p 0 ( 1 p 0 ) n \frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}

    其中:

    • p ^ \hat{p} 代表符合条件(即体重大于70公斤)的个体在样本集合中的实际占比;
    • n 表示样本个数

3. 场景三:比较两个总体的平均值

例如:某人声称成年人中吸烟与不吸烟者体重均值相同。

  • 假设

    • H 0 : μ x μ y = 0 H_0: \mu_x - \mu_y = 0

    • H a : μ x μ y 0 H_a:\mu_x - \mu_y \neq 0

    其中:

    • μ x \mu_x μ y \mu_y 分别表示总体 x x (吸烟者)和总体 y y (不吸烟者)的体重平均值
  • 检验值计算公式

    ( x ˉ y ˉ ) 0 s x 2 n 1 + s y 2 n 2 \frac{(\bar{x}-\bar{y})-0}{\sqrt{\frac{s_x^2}{n_1}+\frac{s_y^2} {n_2}}}

    其中:

    • x ˉ \bar{x} 表示从总体 x x (吸烟者)中取出的样本的均值(平均体重)
    • y ˉ \bar{y} 表示从总体 y y (不吸烟者)中取出的样本的均值(平均体重)
    • s x 2 s_x^2 表示从总体 x x (吸烟者)中取出的样本的方差
    • s y 2 s_y^2 表示从总体 y y (吸烟者)中取出的样本的方差
    • n 1 n1 表示从总体 x x (吸烟者)中取出的样本个数
    • n 2 n2 表示从总体 y y (吸烟者)中取出的样本个数

4. 场景四:检验两个变量之差的平均值:两个变量为成对数据

例如:某人声称成年人早晨起床后与晚上睡觉前的体重相等。

遇到这种需要比较成对数据之差时,先将每个样本中的两个数据相减,得到一个新的样本集合,后续的分析基于这个新样本集合。此例中新样本集合包含的是原样本中每个人的早晚体重差。

  • 假设

    • H 0 : μ d = 0 H_0: \mu_d = 0

    • H a : μ d 0 H_a: \mu_d \neq 0

    其中:

    • μ d \mu_d 表示所有成年人(总体)早晚体重差的平均值
  • 检验值计算公式

    d ˉ μ d s d n \frac{\bar{d}-\mu_d}{\frac{s_d}{\sqrt{n}}}

    其中:

    • d ˉ \bar{d} s d s_d 分别为样本集合中早晚体重差的均值和标准差
    • n n 表示样本个数

5. 场景五:检验两个总体中符合某条件的部分的占比差异

例如:某人声称成年男性与成年女性中吸烟者的比例相同。

这里就有两个总体——男性与女性;各自抽样后得到的样本集合也有两个——男性样本与女性样本。

  • 假设

    • H 0 : p 1 p 2 = 0 H_0: p_1 - p_2 = 0

    • H a : p 1 p 2 0 H_a: p_1 - p_2 \neq 0

  • 检验值计算公式

    ( p 1 ^ p 2 ^ ) 0 p ^ ( 1 p ^ ) ( 1 n 1 + 1 n 2 ) \frac{(\hat{p_1}-\hat{p_2})-0}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1}+\frac{1}{n_2})}}

    其中:

    • p ^ \hat{p} 是将所有样本(包括男、女)混合后,吸烟者占总人数的比例
    • p 1 ^ \hat{p_1} 表示男性样本中抽烟人数的占比
    • p 2 ^ \hat{p_2} 表示女性样本中抽烟人数的占比
    • n 1 n1 表示男性样本的人数
    • n 2 n2 表示女性样本的人数

四、检验方式

有了上一步计算出的检验统计值后,就可以查表得到 p 值了:

  • 当样本数 n n 较大时,在 Z 分布表中查询算出来的检验统计值,得到 p 值

  • 当样本数 n < 30 n < 30 时,在自由度为 n 1 n-1 的 t 分布的表中查询检验统计值,得到 p 值

p 值代表的是当前样本在 H 0 H_0 成立的情况下发生的概率:

  • 如果在某个场景下我们得到的 p 值太小(小于目标阈值),说明 H 0 H_0 假设成立的条件下发生了小概率事件,于是可以由此来拒绝 H 0 H_0 的假设。

  • 如果 p 值 > 显著性水平,则说明样本代表的事件发生的概率不低,没有足够的证据拒绝 H 0 H_0 的假设。

  • Z 分布表:

    image.png image.png

  • t 分布表:

    image.png

猜你喜欢

转载自juejin.im/post/7042729719749410847