内容预告
这期开始我们介绍因果推断的一些理论。读者肯定会问:Why I should give it a shit?
简单来说,因果推断是一个使用数据帮助人们做选择的理论。
- 一个地方政府如何从众多提案中选择最佳政策?
- 一个电商平台用户,应不应该给他发优惠券?
- 一个证券公司,应该投资哪些股票?
- 一个病人应该选择保守治疗还是手术?
当然不是所有的选择问题可以用因果推断来解决,前提是得有数据,此外数据还要满足一些假设。
今天的开场就从一个老生常谈的话题开始:相关与因果之间的关系。
相关性与因果
请观察下面这个关于变量 X X X 和 Y Y Y 的散点图 (scatter plot),不难看出 X X X 与 Y Y Y 呈正相关,也就是说当 X X X 增加时, Y Y Y 也增加。
有个很自然的问题来了:那么 X X X 的增加会不会导致 (cause) Y Y Y 的增加呢?我们用 X → Y X\rightarrow Y X→Y 表示 X X X 导致 (cause) Y Y Y。
似乎是的, X X X 越大 Y Y Y 就越大。这让我们很容易联想到吴恩达教授在他的机器学习课程中用房屋面积预测售价的问题。
但是有不有可能 X X X 是售价, Y Y Y 是房屋面积呢?
这时候,我增加售价,会导致房屋面积增加吗?显然不会,这时候的因果关系是 Y → X Y\rightarrow X Y→X。
再来看一个更有趣的案例:假设我们收集了不同纬度城市的冰淇淋销量与溺水死亡人数的数据。
初看,似乎两者之间存在正相关。但当我们把这些城市根据温度分开,在每个小数据内做相关分析时,就会发现在同样温度的城市中,这两个变量几乎不相关。他们背后有一个共同的导致因素:温度。温度低时,既没有什么人游泳,也没什么人吃冰淇淋;高温时,则两者都增加。
这里的因果关系是 X ← Z → Y X\leftarrow Z \rightarrow Y X←Z→Y,其中 Z Z Z 代表 X X X 和 Y Y Y 共同的导致因素。这是著名的辛普森悖论 1 的一个典型案例,其中温度 ( Z Z Z) 被称为混淆变量 (confounder)。
小结
所以你看,当 X X X 与 Y Y Y 相关时,其实至少有这三种情况:
- X → Y X\rightarrow Y X→Y,通过增加房屋面积来增加它的售价。
- Y → X Y\rightarrow X Y→X,增加房屋售价只会导致房子卖不出去,而不会使得它的面积增加。
- X ← Z → Y X\leftarrow Z \rightarrow Y X←Z→Y,禁止一个城市销售冰淇淋,并不会改变这个城市的溺水死亡人数,反而还可能导致更多人溺水死亡(因为降温的方式减少了一个)。
那么,在实际数据分析中,我们怎么区分这三种情况呢?是不是拿到数据搞一个回归分析就可以了呢?我会在后面的文章中陆续更新因果分析的一些有趣理论,比如因果图模型,潜在结果框架,回归方法,匹配方法等。
希望我能更新下去 ~~ 因为里面的数学部分还是有些难啃,另外我也有点懒,嘿嘿。
不定期更新专业知识和有趣的东西,欢迎反馈、点赞、加星
您的鼓励和支持是我坚持创作的最大动力!ღ( ´・ᴗ・` )
参考
Freedman, D., Pisani, R., & Purves, R. (2007). Statistics ↩︎