《统计学》学习笔记之分类数据分析

鄙人学习笔记



分类数据分析

分类数据与卡方统计量

卡方检验是对分类数据的频数进行分析的统计方法。

  • 卡方统计量

卡方统计量可以用于测定两个分类变量之间的相关程度。若用fo表示观察值频数,用fe表示期望值频数,则卡方统计量可以写为:

  • 卡方统计量的特征

拟合优度检验

拟合优度检验是用卡方统计量进行统计显著性检验的重要内容之一。
它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量进行分析的目的。

独立性检验

  • 列联表
    列联表是由两个以上的变量进行交叉分类的频数分布表。

  • 独立性检验

独立性检验就是分析列联表中行变量和列变量是否相互独立。

列联表中的相关测量

  • φ相关系数

φ相关系数描述2X2列联表数据相关程度最常用的一种相关系数。它的计算公式为:

对于2X2列联表中的数据,计算出的φ相关系数可以控制在0~1这个范围,但是当行数R或列数C大于2时,φ相关系数会随着行数R或列数C变大而增大,且φ系数无上限。

  • 列联相关系数

列联相关系数又称列联系数,简称c系数,主要用于大于2X2列联表的情况,c系数的计算公式为:

当列联表中的两个变量相互独立时,c系数=0,但它不可能大于1,
c系数的特点是,其可能的最大值依赖于列联表的行数和列数,且随着R和C的增大而增大。

  • V相关系数

鉴于φ相关系数无上限,c系数小于1的情况。克莱默提出了V相关系数,V相关系数的计算公式为:

当两个变量相互独立时,V=0;当两个变量完全相关时,V=1。所以V的取值在0一1之间,如果列联表中有一维为2,则V值就等于φ值。

对于同一个数据,系数φ、c、V的结果不同。同样,对于不
同的列联表,行数和列数的差异也会影响系数值。因此。在对不同列联表变量之间的相关程度进行比较时。不同列联表中行与行、列与列的个数要相同.并且采用同一种系数,这样的系数值才具有可比性。

列联分析中应注意的问题

  • 卡方分布的期望准则

前面谈到的用卡方分布进行独立性检验,要求样本量必须足够大,特别是每个单元中的期望频数(理论频数)不能过小,否则应用卡方检验可能会得出错误的结论。

一条准则是:
如果只有两个单元,每个单元的期望频数必须是5或5以上。

另一条准则是:
倘若有两个以上的单元,如果20%的单元期望频数fex小于5,则不能应用卡方检验。

不满足准则时的解决方法:
将fe较小的类别合并,使得合并后的类别的fe≥ 5

发布了116 篇原创文章 · 获赞 22 · 访问量 8万+

猜你喜欢

转载自blog.csdn.net/m0_37422217/article/details/104900183