一些统计学谬误

目录

辛普森悖论

介绍

观察下面 表格:

Treatment A Treatment B
Small stones Group 1 93% (81/87) Group 2 87% (234/270)
Large stones Group 3 73% (192/263) Group 4 69% (55/80)
Both 78% (273/350) 83% (289/350)

分析:

治疗方法A在小、大肾结石分类下都比B的康复率高;但是结合在一起观察,B的康复率比A高;

辛普森悖论:在分组比较中都占优势的一方,在总评中有时反而是失势的一方。

分析

1,辛普森悖论成立时,通常是忽略了`因果关系(causal relation)

影响康复率的根本因素是病情严重,而不是治疗方法;

2,分组后观察数据更加清晰;

分组后,组之间的规模大小size差距悬殊,这导致各组权重应该是不同的。

案例中,在轻症患者分类下,方法B虽然处于弱势,但是弱的程度并不大,且B的规模比方法A大,这导致了方法B综合比A强;

从数据综合来看:方法A适用重症,B适用轻症;

数学原理

\[ \left\{ \begin{array}{l} \frac {a_1}{b_1}>\frac {a_2}{b_2}\\ \frac {c_1}{d_1}>\frac {c_2}{d_2}\\ \end{array} \right.\not\Rightarrow\frac{a_1+c_1}{b_1+d_1}>\frac{a_2+c_2}{b_2+d_2} \]

图像表示

B1优于L1且B2优于L2,但是B1+B2弱于L1+L2;

基本比率谬误

介绍

人群中,患某种癌症的比例是a=1%;做癌症试验反应,阳性阴性确诊的概率是b=90%;(可能误诊)

现在某人反应为阳性,得癌症的概率是?

数学原理

\[ P(癌症|阳性)=\frac{ab}{ab+(1-a)(1-b)}=8.3\% \]
因为分母中存在\((1-a)(1-b)\)进行分担,也就是正常人比率*误诊率都挺高的情况下,假阳性的概率非常高

参考

Simpson's paradox-wiki

猜你喜欢

转载自www.cnblogs.com/yuanquanxi/p/10247734.html