统计思路
频率主义
频率主义认为概率是事件发生频率的长期极限。换句话说,一个事件的概率是该事件在相同条件下无限多次重复实验中发生的比率。
在频率主义视角下,概率是一个客观性质,与实际观测到的数据或个人信念无关。
它强调通过大数定律来估计未知参数,即随着样本量的增加,样本统计量的频率分布趋于稳定,这个稳定的频率被看作是总体参数的真实概率。
例如,如果你说一枚硬币掷出正面的概率是0.5,这意味着如果这枚硬币被投掷无数次,正面出现的比例将趋近于0.5。
贝叶斯主义
贝叶斯主义则从主观概率的角度出发,认为概率是对某个命题或事件的信念程度的量化表达,可以基于先验知识和个人判断进行更新。
在贝叶斯框架中,概率反映的是不确定性,它既是客观现象的属性,也是对这一属性的主观度量。
贝叶斯推断的核心是使用贝叶斯定理来更新对未知参数的信念,当新的数据或证据出现时,先前的信念(先验概率)会结合新数据通过贝叶斯定理转化为后验概率。
举个例子,如果你想预测一个病人患某种疾病的概率,你可以先设定一个基于以往经验的先验概率,然后根据该病人的具体检测结果(新证据)通过贝叶斯定理更新这个概率,得到更准确的后验概率。
总结
- 频率主义强调概率的客观性,关注在重复实验中的频率稳定趋势。
- 贝叶斯主义则更侧重于主观概率和不确定性,允许先验知识影响概率评估,并通过新数据不断修正这一评估。
显然,后者更适合我们机器学习
假设检验
假设检验的本质是检验两组数据是否存在显著性差异,或者是否相关
如抛硬币概率与0.5有差距,我们可以通过假设检验来确定到底是偶然性还是硬币被动了手脚。
数据分类
我们收集的数据分为两种
分类型:如性别(男,女),年龄分组(儿童,成人,老人)
数值型:如身高,体重
我们针对不同的数据类型组合以及数据量会构造不同的统计量来检验其变量之间是否存在显著差异
对以下组合,采取不同策略
-
分类-分类,使用卡方检验
-
分类-数值,使用t检验或f检验
-
数值-数值,使用相关性检验
根据不同的显著性水平 α \alpha α(一般为0.5%)和自由度n查表得到统计量的临界值
卡方检验
都是针对分类变量进行检验
- 卡方拟合度检验,针对分类变量与期望之间的差距,如扔骰子,抛硬币
χ 2 = ∑ ( f o − f e ) 2 f e \chi^2=\sum\frac{\left(f_o-f_e\right)^2}{f_e} χ2=∑fe(fo−fe)2
- f o f_o fo 为观察到的频率observe
- f e f_e fe 为期望的评论 expect
- 自由度为分类数-1
- 卡方独立性检验,用于检验两个分类变量之间是否存在关系,如理性感性思维偏好与不同专业是否存在关系
因为得到的是一个r*c的数量分布表格(row*column)
,而我们没有预先的期望,就根据下面公式计算每格的期望
f e = f r f c n f_e=\frac{f_rf_c}n fe=nfrfc
- f r f_r fr f c f_c fc 分别为列联表的行和和纵和
- 自由度为 d f = ( r − 1 ) ∗ ( c − 1 ) df=(r-1)*(c-1) df=(r−1)∗(c−1)
前提
- 每个观测值只落在一个类别中
- 观测值之间相互独立
- 期望频次不能太小,即多次试验
t检验
检验两组数据的均数是否存在显著差异,即分类变量和数值变量的关系
t = ∣ x 1 ‾ − x 2 ‾ ∣ s 1 2 n 1 + s 2 2 n 2 t=\frac{|\overline{x_1}-\overline{x_2}|}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}} t=n1s12+n2s22∣x1−x2∣
如公式所示,将组间差异与组内差异相除得到t分布,即如果存在显著差异,那么组间差异会大,组内差异会更小,t会越大
- 独立样本t检验,针对两个独立数值变量的优劣比较,如比较两个班级的成绩谁更好
- 自由度 d f = n 1 + n 2 − 2 df=n_1+n_2-2 df=n1+n2−2 因为两个平均数
-
配对样本t检验 ,针对数值变量的先后比较,如经过培训后同一批人水平是否有显著提升
-
单样本t检验,针对一个数值变量与已知的比较,如样本同学智商与平均智商是否存在显著差异
前提
- 被测变量在总体和样本中呈正态分布
中心极限定理可以知道,大量独立同分布的随机变量的和(或平均值)的分布趋向于正态分布。(可以参考高尔顿板实验)
- 方差齐性,两组样本直接方差相差不多,样本量很大时,一般问题不大
f检验
其实可以看出,t分布都是两组数据量的比较,其本质其实是数据量和一个分类量的关系
因为求解中只需要计算方差,也称方差分析ANOVA
如果分类数为3以上,就需要使用f检验了,公式如下
F = S S B S S W F=\frac{SSB}{SSW} F=SSWSSB
- 自由度 d f b = k − 1 df_b=k-1 dfb=k−1 k为组数 d f w = N t − k df_w=N_t-k dfw=Nt−k N t N_t Nt为总样本量
- 定义总平均数为 x ‾ \overline{x} x 每组的平均数为 x k ‾ \overline{x_k} xk 样本为 x k i x_{ki} xki
- sum of square SS 离差平方和 S S = ∑ i = 1 n ( x i − x ˉ ) 2 SS=\sum_{i=1}^n(x_i-\bar{x})^2 SS=∑i=1n(xi−xˉ)2
- between 组间差异,每组的平均值与总平均值求SS再乘上样本数量后再求和
- within 组内差异,每组样本与自己的平均值求SS再求和
- 另外有个SST,total,总离差平方和,所有样本与总平均值求SS得到。有SST=SSB+SSW
这里我们用的单因素方差分析,如,多个学科学生的推理能力是否存在显著差异
多因素方差分析,如添加是否喝咖啡这个习惯的考量
重复测量方差分析,对同一组学生进行训练,分别测量不同时间后的能力差异
相关性检验
常用皮尔逊相关系数
r = ∑ ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ ( X i − X ˉ ) 2 ∑ ( Y i − Y ˉ ) 2 r=\frac{\sum(X_i-\bar{X})(Y_i-\bar{Y})}{\sqrt{\sum(X_i-\bar{X})^2\sum(Y_i-\bar{Y})^2}} r=∑(Xi−Xˉ)2∑(Yi−Yˉ)2∑(Xi−Xˉ)(Yi−Yˉ)
相关性检验并不能确定因果关系,只能表明两个变量之间是否存在关联。
越接近1,越相关,越接近0,越独立