Z 检验和 T 检验之间的区别

冠状病毒大流行使我们所有人都成为了一名统计学家。我们不断检查数字，对大流行病将如何发展做出自己的假设，并就“高峰”何时发生提出假设。不仅仅是我们在进行假设构建——媒体也在此蓬勃发展。在这种统计探索中，了解 Z 检验与 T 检验的差异变得至关重要。这些测试是统计学家的宝贵工具，使他们能够得出有意义的结论并根据手头的数据做出明智的决定。因此，在本文中，您将全面了解 z test 与 t test 的区别，现在选择哪个。

几天前，我读到一篇新闻文章，其中提到这次疫情“可能是季节性的”，并在温暖的条件下缓解：

所以我开始想知道——关于冠状病毒，我们还能假设什么呢？成年人是否更容易受到冠状病毒爆发的影响？相对湿度如何影响病毒的传播？支持这些说法的证据是什么？我们如何检验这些假设？作为一个统计学爱好者，所有这些问题都挖掘了我对假设检验基础知识的旧知识。在本文中，我们将讨论假设检验的概念以及 z 检验和 t 检验之间的区别。然后，我们将使用 COVID-19 案例研究来结束我们的假设检验学习。

此外，在本文中，您将简要概述 Z 测试、它的示例、那是什么以及 z 测试与 t 测试之间的比较。

学习目标

了解假设检验的基础知识
了解假设检验的工作原理
能够区分 z 检验、t 检验和其他统计概念

二、什么是假设检验？

假设检验提供了一种根据数据样本对总体进行推断的方法，从而有助于数据分析。它允许分析师根据样本数据提供的证据来决定是接受还是拒绝有关总体的给定假设或假设。例如，假设检验可以确定样本均值是否与假设的总体均值显著不同，或者样本比率是否与假设的总体比率存在显著差异。此信息有助于决定是接受还是拒绝有关总体的给定假设或假设。在统计分析中，假设检验根据数据样本对总体进行推断。

在机器学习中，假设检验评估模型的性能并确定其参数的重要性。例如，t 检验或 z 检验比较两个数据组的均值，以确定它们之间是否存在显著差异。使用此信息改进模型，或选择最佳特征集。此外，假设检验可以评估模型的准确性并决定如何继续进行进一步开发或部署。我们甚至可以使用假设检验过程在给定数据集上测试机器学习算法（如线性回归和逻辑回归）的统计有效性。

这个关于假设检验的广泛教程是您开始学习该主题所需的内容。

三、假设检验基础

让我们举个例子来理解假设检验的概念。一个人因刑事犯罪受审，法官需要对他的案件做出裁决。现在，在这种情况下，有四种可能的组合：

第一个案件：这个人是无辜的，法官认定这个人是无辜的
第二个案件：这个人是无辜的，法官认定这个人有罪
第三种情况：此人有罪，法官认定此人无辜
第四种情况：此人有罪，法官认定此人有罪

正如你清楚地看到的，判决中可以有两种类型的错误——类型 1 错误，当判决对这个人不利时，他是无辜的，以及类型 2 错误，当判决对这个人有利时，他有罪。

根据无罪推定，在被证明有罪之前，该人被认为是无辜的。这意味着法官必须找到使他“排除合理怀疑”的证据。这种“排除合理怀疑”的现象可以理解为概率（法官判定有罪 |Person is Innocent）应该较小。

3.1 假设检验的基本概念

我们认为零假设是正确的，直到我们找到反对它的有力证据。然后我们接受备择假设。我们还确定了显著性水平（⍺），它可以理解为（法官判定有罪 |Person 是 Innocent的）。因此，如果 ⍺ 更小，则需要更多证据来否定原假设。不用担心;我们稍后将使用案例研究来介绍所有这些。

3.2 、执行假设验证的步骤

执行假设验证检验有四个步骤：

设置 Null 假设和替代假设
设置决策的 Significance Level， Criteria
计算检验统计量
做出决定

必须注意的是，z-检验和t-检验是参数测试，这意味着零假设是关于一个总体参数，该参数小于、大于或等于某个值。第 1 步到第 3 步是不言自明的，但是我们可以根据什么来做出第 4 步的决定呢？这个 p 值表示什么？

我们可以将这个 p 值理解为辩护律师论点的度量。如果 p 值小于 ⍺ ，则拒绝原假设，如果 p 值大于 ⍺，则无法拒绝原假设。

3.3 临界值、P 值

让我们用 Normal Distribution 的图形表示来理解 Hypothesis Testing 的逻辑。

上述可视化有助于了解 z 值及其与临界值的关系。通常，我们将显著性水平设置为 10%、5% 或 1%。如果我们的测试分数位于接受区，则我们无法拒绝 Null 假设。如果我们的检验分数位于临界区域，则拒绝原假设并接受替代假设。

Critical Value 是 Acceptance Zone 和 Rejection Zone 之间的截止值。我们将测试分数与临界值进行比较，如果测试分数大于临界值，则意味着我们的测试分数位于拒绝区，我们拒绝原假设。另一方面，如果测试分数低于临界值，则意味着测试分数位于接受区域，我们无法拒绝零假设。

但是，当我们可以根据测试分数和临界值拒绝/接受假设时，为什么还需要 p 值呢？

P 值的好处是，我们只需要一个值来做出有关假设的决策。我们不需要计算两个不同的值，例如临界值和测试分数。使用 p 值的另一个好处是，我们可以通过直接将 p 值与显著性水平进行比较，在任何所需的显著性水平上进行测试。

这样，我们就不需要计算每个显著性水平的检验分数和临界值。我们可以得到 p 值，并直接将其与我们感兴趣的显著性水平进行比较。

3.4 方向假设

在方向假设中，如果检验分数太大（对于右尾）或太小（对于左尾），则拒绝原假设。因此，这种测试的排斥区由一部分组成，对于右尾测试，该部分位于右侧;或者在左尾测试的情况下，拒绝区域位于中心的左侧。

3.5 非方向假设检验s

在非方向假设检验中，如果检验分数太小或太大，则原假设将被拒绝。因此，这种测试的排斥区由两部分组成：一部分在左侧，一部分在右侧。这是一个双尾测试的情况。

四、什么是 Z 检验统计量？

z 检验是检验 Null 假设的一种统计方法，当：

我们知道总体方差，或者
我们不知道总体方差，但我们的样本量很大 n ≥ 30

如果样本量小于 30 并且不知道总体方差，则必须使用 t 检验。这就是我们判断何时使用 z 检验与 t 检验的方式。此外，还假设 z 统计量服从标准正态分布。相反，t 统计量服从自由度等于 n-1 的 t 分布，其中 n 是样本数量。

必须注意，用于 z 检验或 t 检验的样本必须是独立样本，并且还必须具有与总体分布相同的分布。这确保了样本不会“偏向”于/反对我们想要验证/失效的原假设。

五、Z 检验示例

5.1 单样本 Z 检验

当我们想要将样本均值与总体均值进行比较时，我们执行单样本 z 检验。

下面是一个理解单样本 z 检验的示例

假设我们需要确定女孩在考试中的平均分数是否高于 600。我们有信息表明女孩分数的标准差是 100。因此，我们使用随机样本收集了 20 名女孩的数据并记录了她们的分数。最后，我们还将 ⍺ 值（显著性水平）设置为 0.05。

在此示例中：

女孩的平均分数是 641
样本中的数据点数为 20
总体平均值为 600
总体的标准差为 100

由于 P 值小于 0.05，我们可以否定原假设，并根据我们的结果得出 Girls 的平均得分高于 600 的结论。

5.2 双样本 Z 检验

当我们想要比较两个样本的均值时，我们执行双样本 z 检验。

下面是一个示例，用于了解双样本 z 检验

在这里，假设我们想知道 Girls 的平均得分是否比 Boy 高 10 分。我们得到的信息是，女孩的分数是 100，男孩的标准差是 90。然后，我们使用随机样本收集 20 名女孩和 20 名男孩的数据并记录他们的分数。最后，我们还将 ⍺ 值（显著性水平）设置为 0.05。

在此示例中：

女孩的平均分数（样本平均值）为 641
男孩的平均分数（样本平均值）为 613.3
Population of Girls' 的标准差为 100
Population of Boys' 的标准差为 90
女孩和男孩的样本量均为 20
总体均值之差为 10

因此，我们可以根据 p 值得出结论，我们无法否定原假设。我们没有足够的证据得出结论，女孩的平均得分比男孩高 10 分。很简单，对吧？

六、什么是 T 检验？

在以下情况下，T 检验是一种检验假设的统计方法：

我们不知道总体方差
我们的样本量很小，< 30

6.1 单样本 T 检验示例

当我们想要将样本均值与总体均值进行比较时，我们执行单样本 t 检验。与 z 检验的不同之处在于，我们在此处没有有关总体方差的信息。在这种情况下，我们使用样本标准差而不是总体标准差。

下面是一个理解单样本 t 检验的示例

假设我们想确定女孩在考试中的平均分数是否超过 600。我们没有与女孩分数的方差（或标准差）相关的信息。为了执行 t 检验，我们随机收集 10 个女孩的数据及其分数，并选择我们的 ⍺ 值（显着性水平）为 0.05 进行假设检验。

在此示例中：

女孩的平均分数是 606.8
样本大小为 10
总体平均值为 600
样本的标准差为 13.14

我们的 p 值大于 0.05，因此我们无法否定原假设，并且没有足够的证据来支持女孩在考试中平均得分超过 600 分的假设。

6.2 双样本 T 检验

当我们想要比较两个样本的均值时，我们执行双样本 t 检验。

下面是一个理解双样本 t 检验的示例

在这里，假设我们想要确定男生在考试中的平均得分是否比女生高 15 分。我们没有与女孩分数或男孩分数的方差（或标准差）相关的信息。执行 t 检验。我们随机收集了 10 名女孩和男孩的数据及其分数。我们选择 ⍺ 值（显著性水平）为 0.05 作为假设检验的标准。

在此示例中：

男生的平均分数是 630.1
女孩的平均分数是 606.8
总体均值之间的差异 15
男生分数的标准差为 13.42
女生分数的标准差为 13.14

因此，p 值小于 0.05，因此我们可以否定原假设并得出结论，平均而言，男生在考试中的得分比女生高 15 分。

七、在 z 检验和 t 检验之间做出决定

那么我们应该什么时候执行 z 检验，什么时候应该执行 t 检验呢？如果我们想掌握统计学，这是一个我们需要回答的关键问题。

如果样本数量足够大，则 z 检验和 t 检验将得出相同的结果。对于较大的样本量，样本方差将是总体方差的更好估计值，因此即使总体方差未知，我们也可以使用样本方差的 z 检验。

同样，对于大样本 ，我们具有很高的自由度。由于 t 分布接近正态分布，因此z 分数和 t 分数之间的差异可以忽略不计。

八、Z 检验 vs T 检验

	Z 测试	T 检验
假设	总体标准差是已知的	总体标准差未知
样本量	大样本量（n > 30）	样品量小（n < 30）
分配	Z 分布	T 分布
检验统计量	（样本均值 – 总体均值）/（总体 SD / √n）	（样本均值 – 总体均值）/（样本 SD / √n）
假设检验	检验总体均值或比率	检验总体均值
自由度	不適用	n – 1
应用	当总体标准差已知且样本量较大时使用	当总体标准差未知或样本量较小时使用
例	测试男性成人的平均身高是否与已知值显著不同	测试与旧方法相比，新的教学方法是否能提高学生的考试成绩

我们使用了 “scipy” 包的 “stats” 模块来计算测试统计量的临界值，以及 p 值。从这些值中，我们得出结论，我们没有证据来否定温度不会影响 COV-19 爆发的原假设。虽然我们找不到温度对 COV-19 的影响，但这个问题刚刚被用于对我们在本文中学到的内容进行概念理解。COVID-19 数据集的 z 检验存在某些限制：

样本数据可能无法很好地代表总体数据
样本方差可能不是总体方差的良好估计量
一个州应对这种大流行的能力的可变性
社会经济原因
某些地方的早期突破
一些州可能出于地缘政治原因隐藏了数据

因此，我们需要更加谨慎并进行更多研究，以确定这种大流行的模式。

九、结论

在本文中，我们遵循分步过程来了解假设检验、1 类错误、2 类错误、显著性水平、临界值、p 值、非定向假设、方向假设、z 检验和 t 检验的基础知识。最后，我们为冠状病毒案例研究实施了双样本 z 检验。因此，您将在本文中清楚地了解 t 检验与 z 检验。