相关与因果的相爱相杀——新书《为什么:因果关系的新科学》解读(上)

《为什么:因果关系的新科学》(The Book of Why: The New Science of Cause and Effect)是今年3月刚出版的新书,作者是一位传奇人物,81岁的计算机科学家和哲学家朱迪亚·珀尔(Judea Pearl)。
        
这本书的主题是在当今这个相关性运用越来越广泛的时代,因果是否还有必要存在,或者因果这一概念自身就是人类的一个错误认知?这本书给了我们一个很好的解答。趁着周末,用上下两篇博客分析一下本书的主要内容以及思想。

传送门:

相关与因果的相爱相杀——新书《为什么:因果关系的新科学》解读(上)
相关与因果的相爱相杀——新书《为什么:因果关系的新科学》解读(下)

1.因果关系的三种思维

在简单世界通常是一个原因导致一个结果的发生,即A->B(A导致的B的发生),也就是我们熟知的因果关系。但复杂世界中很难判断一件事发生的缘故,可能B这个结果的发生除了A还有C、D等原因。正因如此,近年来人们喜爱用基于大数据和机器学习来分析相关性。一个经典的例子
当飓风侵袭某个地区的时候,那里的沃尔玛商店卖的一种草莓馅饼干的销量就会大增。这是为什么呢?没人知道。但是有这个信息就够了,你看天气预报说要来飓风,你就多给草莓馅饼干备货,没有必要分析为什么。
有统计学家相信科学世界中没有因果,所有的知识都是相关性的,人的行为也是基于经验的。这一学说听起来看似有道理,但作者明确指出这是错的,并用因果关系的三个等级来阐述自己的思想:
  • 第一级:观察即通过数据分析做出预测。你的生活经验表明下雨会把衣服淋湿,所以下次下雨你最好打伞,这就是观察思维。观察是寻找变量之间的相关性,观察就是积累经验。现在所有实用 AI 技术都是基于这个第一级思维。比如你开个便利店,有卖牙膏和牙线。观察思维问的问题是,如果一个顾客买牙膏的话,他有多大的概率同时也买牙线呢?这是个数学问题,可以在日常销售记录中进行计算。
  • 第二级:干预即预判一个行动的结果。如果我现在把牙膏的价格给提高一倍,对牙线的销量会有什么影响?这不是以往的数据所能告诉你的想知道这件事的结果,最好的办法是亲自做实验。生活中我们可以借助第一级的知识来辅助分析,但是干预的结果到底会如何?你需要更高级的判断。
  • 第三级:想象即对以前发生的事的反思并想象未来可能发生的事。你问的是一个从来没发生过的事情。这叫反事实(counterfactual)分析。如果纳粹德国抢先一步发明原子弹,现在的世界会是什么样的?这件事儿在历史上并有没有发生,积累的大数据是用不上的。但这种想象正是智人独有的特性,早在三万年前就有智人运用想象雕刻出了“狮面人身像”,把头部替换为了狮子头,如下所示。这是一种高级的认知,是AI所不具备的。

2.皮尔逊的尴尬

皮尔逊相关系数(Pearson Correlation Coefficient)是统计分析中的一个重要系数。物理定律里根本就不包括因果关系。比如你拿个气压计测量大气压,物理定律说你的气压计读数 B 和大气压 P 之间有一个正比关系 ——B = kP
但是这个定律里根本没说“谁导致了谁”。是气压导致了气压计的读数吗?上面的方程完全可以改写成 P = B/k,只看方程,你完全可以说是气压计的读数导致了大气压的大小。物理定律只是描述一个规律,并不在乎因果。这也是皮尔逊坚信的观点,可能也是他研究相关系数的一个原因吧。。。

重点在于,皮尔逊的观点为相关系数等于1时,即A发生B一定发生,相关系数为1等同于因果关系,这个观点现在看来肯定是错误的。来看看作者的观点:
作者阐述了第一个使用因果模型图搞研究的例子。
1920年,休厄尔·赖特(Sewall Wright)发表了一篇有关天竺鼠的毛色遗传的论文。他假设有三种因素可能影响毛色,分别是发展(d)、遗传(h)和环境(e),他把这三种因素画成了因果关系图 —— 

赖特根据自己的实验结果,用解方程的方法算出了三种因素的相对大小。他把天竺鼠的毛色问题给解决了。
这绝对是开创性的工作。赖特不但第一次使用了因果模型,而且还提出了一个洞见。赖特说,我这个因果模型并不是客观的。你不可能通过数据分析、用机械化的流程得到这张图。因果图之所以这么画,图中之所以考虑了这些关系而没考虑别的关系,这是你自己主观的选择 —— 是你用自己的知识、阅历和判断画出来的。
也就是说, 因果关系,其实是你的主观假设
数据是客观的,而人的观点是主观的。相关性是客观的,因果是主观的
有了这个洞见,我们解决问题的步骤就是下面这样的 ——
第一步,根据你自己的见识,画一张主观的因果模型图。模型里有些因果关系是概率性的,A 发生并不一定会让 B 发生,只要 A 对 B 有影响就行。
第二步,使用实验和数据分析,确定图中每个因果关系的强弱大小。这样你就有了一个完整的因果模型。
第三步,使用因果模型,你就可以回答“观察、干预、想象”那三种问题了。
(ps:这个道理琢磨了一段时间,归根到底算是一个哲学问题,不好理解。。欢迎各位指点交流)

3.知识的核实与修正——伟大的贝叶斯定理

贝叶斯定理的核心就是科学地修正,不是坚定不移,也不是听风就是雨。先来看一下贝叶斯公式(这里只是理论上介绍一下,想具体了解贝叶斯请自行百度)

右边乘法的第一项 P(B|A)/P(B) 有时候被称为“似然比”。那么贝叶斯公式可以写成

你可以把它理解成“观念更新”的公式。P(假设) 是你的老观念,新证据发生之后,你的新观念是 P(假设|证据)。新观念等于老观念乘以似然比。你的观点, 随着事实,发生了改变
传统科学对贝叶斯定理是持抨击态度的,因为传统的科学方法是
  1. 提出一个理论假设。
  2. 做实验验证。
  3. 如果实验结果符合理论,这个理论就暂时站得住脚,如果不符合,理论就被证伪了。
这是非黑即白的剧情,理论要么就继续保留,要么就彻底抛弃。
而贝叶斯方法则是先给理论假设设定一个 可信度。新证据并不直接证实或者证伪理论,只是调整可信度的大小,做一个动态的判断。
贝叶斯方法是一种实用主义的态度。其实咱们想想,我们搞研究的目的并不一定是了解*绝对真实*的世界 —— 也许绝对真实的世界根本就不可知 —— 我们的目的是通过获取实用的知识,做出尽可能准确的判断和决策。这跟前面说的不追求绝对的因果关系和“为什么”,只追求回答三种实用的因果问题,是一样的道理。可以说,贝叶斯为我们提供了一个理性分析世界的方法。

猜你喜欢

转载自blog.csdn.net/s1314_JHC/article/details/80789577