在学习统计学贾书的过程,在第6—14章节出有许多需要理解与记忆的公式和概念,在此通过博客的形式做一次梳理,主要内容为统计学中抽样分布、假设检验、参数估计、分类数据分析、方差分析、一元二元线性分析、时间序列分析、指数的理论知识,不足之处望多多指正。
分类数据与 χ 2 \chi^2 χ2统计量
- 什么是分类数据?
(1)分类变量的结果表现为类别
例如:性别 (男, 女)
(2)各类别用符号或数字代码来测度
使用分类或顺序尺度
你吸烟吗?
1.是;2.否
你赞成还是反对这一改革方案?
1.赞成;2.反对
(3)对分类数据的描述和分析通常使用列联表
(4)可使用 χ 2 \chi^2 χ2检验 - χ 2 \chi^2 χ2检验统计量计算公式(自由度为分类变量R-1)
χ 2 = ∑ ( f o − f e ) 2 f ε \chi^{2}=\sum \frac{\left(f_{o}-f_{e}\right)^{2}}{f_{\varepsilon}} χ2=∑fε(fo−fe)2(其中f0为观察频数,fe为观察频数)
拟合优度检验
- 作用:判断期望频数与观察频数是否有显著差异。
- 案例:1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有共2208人,其中男性1738人,女性470人。海难发生后,幸存者为718人,其中男性374人,女性344人,以的显著性水平检验存活状况与性别是否有关。
解要回答观察频数与期望频数是否一致,检验如下假设:
H0:观察频数与期望频数一致
H1:观察频数与期望频数不一致
自由度df=2-1=1,经查分布表, χ 2 \chi^2 χ2(0.1)(1)=2.706,故拒绝H0,说明存活状况与性别显著相关
列联分析:独立性检验
- 列联表的概念与性质:
由两个以上的变量交叉分类的频数分布表;
行变量的类别用 r 表示, ri 表示第 i 个类别;
列变量的类别用 c 表示, cj 表示第 j 个类别;
每种组合的观察频数用 fij 表示;
表中列出了行变量和列变量的所有可能的组合,所以称为列联表;
一个 r 行 c 列的列联表称为 r *c 列联表 - φ \varphi φ相关系数计算公式
φ = χ 2 n χ 2 = ∑ i = 1 r ∑ j = 1 c ( f i j − e i j ) 2 e i j \varphi=\sqrt{\frac{\chi^{2}}{n}} \quad \quad \chi^{2}=\sum_{i=1}^{r} \sum_{j=1}^{c} \frac{\left(f_{i j}-e_{i j}\right)^{2}}{e_{i j}} φ=nχ2χ2=∑i=1r∑j=1ceij(fij−eij)2
二维情况下简化公式:
-
C列联相关系数计算公式:
C = χ 2 χ 2 + n C=\sqrt{\frac{\chi^{2}}{\chi^{2}+n}} C=χ2+nχ2 -
V相关系数计算公式
V = χ 2 n min [ ( r − 1 ) , ( c − 1 ) ] V=\sqrt{\frac{\chi^{2}}{n \min [(r-1),(c-1)]}} V=nmin[(r−1),(c−1)]χ2 -
三个系数间的关系
(1)相同点:取值0-1之间,取0说明两变量间独立,取1时说明两变量完全相关。
(2)不同行和列的列联表计算的列联系数不便于比较
(3)当列联表中有一维为2,min[(r-1),(c-1)]=1,此时V= φ \varphi φ
参考
《统计学》 第7版_贾俊平