统计学理论—分类数据分析

在学习统计学贾书的过程,在第6—14章节出有许多需要理解与记忆的公式和概念,在此通过博客的形式做一次梳理,主要内容为统计学中抽样分布、假设检验、参数估计、分类数据分析、方差分析、一元二元线性分析、时间序列分析、指数的理论知识,不足之处望多多指正。

分类数据与 χ 2 \chi^2 χ2统计量

  • 什么是分类数据?
    (1)分类变量的结果表现为类别
    例如:性别 (男, 女)
    (2)各类别用符号或数字代码来测度
    使用分类或顺序尺度
    你吸烟吗?
    1.是;2.否
    你赞成还是反对这一改革方案?
    1.赞成;2.反对
    (3)对分类数据的描述和分析通常使用列联表
    (4)可使用 χ 2 \chi^2 χ2检验
  • χ 2 \chi^2 χ2检验统计量计算公式(自由度为分类变量R-1)
    χ 2 = ∑ ( f o − f e ) 2 f ε \chi^{2}=\sum \frac{\left(f_{o}-f_{e}\right)^{2}}{f_{\varepsilon}} χ2=fε(fofe)2(其中f0为观察频数,fe为观察频数)

拟合优度检验

  • 作用:判断期望频数与观察频数是否有显著差异。
  • 案例:1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有共2208人,其中男性1738人,女性470人。海难发生后,幸存者为718人,其中男性374人,女性344人,以的显著性水平检验存活状况与性别是否有关。
    要回答观察频数与期望频数是否一致,检验如下假设:
    H0:观察频数与期望频数一致
    H1:观察频数与期望频数不一致
    在这里插入图片描述
    自由度df=2-1=1,经查分布表, χ 2 \chi^2 χ2(0.1)(1)=2.706,故拒绝H0,说明存活状况与性别显著相关

列联分析:独立性检验

  • 列联表的概念与性质:
    由两个以上的变量交叉分类的频数分布表;
    行变量的类别用 r 表示, ri 表示第 i 个类别;
    列变量的类别用 c 表示, cj 表示第 j 个类别;
    每种组合的观察频数用 fij 表示;
    表中列出了行变量和列变量的所有可能的组合,所以称为列联表;
    一个 r 行 c 列的列联表称为 r *c 列联表
  • φ \varphi φ相关系数计算公式
    φ = χ 2 n χ 2 = ∑ i = 1 r ∑ j = 1 c ( f i j − e i j ) 2 e i j \varphi=\sqrt{\frac{\chi^{2}}{n}} \quad \quad \chi^{2}=\sum_{i=1}^{r} \sum_{j=1}^{c} \frac{\left(f_{i j}-e_{i j}\right)^{2}}{e_{i j}} φ=nχ2 χ2=i=1rj=1ceij(fijeij)2
    二维情况下简化公式:
    在这里插入图片描述

在这里插入图片描述

  • C列联相关系数计算公式:
    C = χ 2 χ 2 + n C=\sqrt{\frac{\chi^{2}}{\chi^{2}+n}} C=χ2+nχ2

  • V相关系数计算公式
    V = χ 2 n min ⁡ [ ( r − 1 ) , ( c − 1 ) ] V=\sqrt{\frac{\chi^{2}}{n \min [(r-1),(c-1)]}} V=nmin[(r1),(c1)]χ2

  • 三个系数间的关系
    (1)相同点:取值0-1之间,取0说明两变量间独立,取1时说明两变量完全相关。
    (2)不同行和列的列联表计算的列联系数不便于比较
    (3)当列联表中有一维为2,min[(r-1),(c-1)]=1,此时V= φ \varphi φ

参考

《统计学》 第7版_贾俊平

猜你喜欢

转载自blog.csdn.net/Zengmeng1998/article/details/109568198
今日推荐