相关性不是因果关系......或者是吗?

在谈论相关问题时,你如何能够超越摆布?

照片:Zakaria ZayaneonUnsplash

相关性:分析学中的一个障碍

"相关性不是因果关系 "是你在分析学中经常听到的一句话(我从现在开始把它缩写为CINC,我选择把它听成 "扭结")。在我的职业生涯中,我曾多次看到商业分析师或数据科学家提出一个数据散点图,显示两个变量A和B之间的相关性,并发出这个仪式性的警告。不幸的是,90%的情况下,他们会继续做两件事中的一件。

  • 例如,"我们可以看到,收到的营销电子邮件的数量与客户的寿命值相关。当然,相关关系并不是因果关系。既然如此,我们现在就来谈谈如何加强我们的营销工作,以提高客户的生命周期价值"。在这种情况下,CINC只不过是一个薄薄的免责声明,在你愚蠢地相信他们的结论时保护分析师的屁股。
  • 或者,他们表示,除非你进行随机实验,否则你不能得出任何进一步的结论。这种方法在受过统计学训练的分析师中比较常见,它的优点是在智力上比较诚实。然而,在实践中,商业伙伴往往只是点点头,当演讲者离开房间后,他们就会根据变量A导致变量B来制定计划。

然而,这种令人遗憾的状况并不一定是常态。每当我们观察到数据中的相关性时,实际上在变量A导致变量B之外还有有限的可能情况。

  1. 观察到的相关性并不反映感兴趣的人群中的真实相关性。
  2. 变量B导致变量A。
  3. 变量A和变量B有一个共同的原因。
  4. 有一个更复杂的因果结构在起作用。

1.1.没有真正的相关关系

最简单的情况是,在感兴趣的人群中实际上没有任何相关关系。这有两种情况:噪音(又称采样变化)和偏见。

噪声。 首先,如果你的样本 "太小",或者如果你连续抽取了太多的样本(又称钓鱼式调查),观察到的相关性可能只是一个随机的侥幸。这是一个真正的问题,特别是如果你依靠p值作为显著性的衡量标准,而不是通过置信区间来确定经济意义,但我不会纠缠于此。我觉得大多数人都很好地掌握了这个陷阱,而且在大多数商业情况下,样本并没有那么小。如果你有一百万行,抽样变化在你的潜在问题清单上应该是很低的。如果你的样本偏小,就使用更稳健的指标,比如中位数而不是平均值。人们经常低估中位数的稳健性,即使是在非常小的样本中也是如此(数学运算在附录中)。

**偏差。**当你的样本不能很好地代表你所关注的人群时,就会出现偏差。例如,"去年有活动账户的所有客户 "通常是 "明年有活动账户的所有客户 "的合理代表。另一方面,"所有去年拥有活跃账户_并提供了电子邮件地址_的客户 "则不是。偏见是一个比噪音更隐蔽的问题,因为即使是大样本也会成为它的受害者,正如最近一项关于COVID的研究显示[1]。

不过,避免偏见,或者至少认识到它,并不需要很复杂。只需尽可能准确地写下你的样本定义和你感兴趣的人群的定义。如果你的样本真的是从你的人群中随机抽取的,你就可以了。在任何其他情况下,可能会有偏差,例如,如果你在你的人口中随机接触了一些人,但你的样本只包括那些回答或提供完整答案的人。试着找出属于你感兴趣的人群的子类别,但在你的样本中可能缺失或代表性不足。将它推到极限,如果有残疾和没有互联网连接的贫穷老年妇女是你的人口的一部分,你是否充分地接触到他们?

如果你在想 "但这只是我人口中的一小部分!",我请你再想想。子类别加起来可能占你人口的很大份额,即使他们中的每一个都很小。它们也可能只是从你的个人观点看来很小。我目前住在西非,最近在更新iPhone时遇到了困难:它需要1)下载几千兆字节的数据,2)通过WiFi(另一个手机热点不起作用),3)在充电时。但是在发展中国家,典型的智能手机拥有者可能在家里没有WiFi(他们的智能手机是他们唯一的上网途径),商店里的WiFi带宽通常是有限的,假设他们甚至会让你使用一个电插头。如果你住在美国西海岸,这可能是一个 "边缘案例",但它可能涵盖了数以亿计,甚至数十亿计的智能手机用户!

2.反向因果关系(B导致A)

下一个可能性是,变量A和B之间的相关性可能源于变量B导致变量A,而不是相反。例如,收到的营销电子邮件的数量和客户的生命周期价值之间的相关性可能是由于营销部门针对高LTV客户的电子邮件。一旦你考虑到这种可能性,一般来说,在你的数据中发生这种情况是很明显的。

3.混合因素(A和B有一个共同的原因)

最后一种 "简单 "的情况是当A和B有一个共同的原因。例如,也许营销预算是在美国的州一级分配的,或者在国际的国家一级分配的。那么加利福尼亚的客户(在美国)可能比田纳西的客户(在尼日利亚)有更高的LTV和收到更多的营销邮件。同样,一旦你考虑到这种可能性,一般来说,这在你的数据中是非常明显的。

4.其他情况(更复杂的因果结构)

前3种情况可能代表了你在实践中会遇到的90%的情况,但从技术上讲,它们并没有涵盖所有的可能性。为了完整起见,我将简要地谈谈还有哪些情况。

一类更复杂的因果结构是当你明确或隐含地控制了一个你不应该控制的变量。例如,一位军医发现,在战场上使用止血带与生存率呈负相关;问题是他的分析是基于士兵到达战地医院的情况。但止血带的主要好处是,它可以让有严重伤口的士兵存活到他们到达医院,而不是失血过多。这意味着更多的士兵总体上能存活下来,但那些能到达医院的士兵的比例却更小,因为我们在其中加入了更多严重的病例[2]。作为附带说明,这个例子也可以解释为数据收集的偏差(即观察到的负相关并不代表感兴趣的人群),这表明数据收集和数据分析并不像人们经常认为的那样独立。

最后,我们有一些情况似乎是大自然设计的,以绊倒和迷惑科学家。例如,人们知道自闭症与较简单的肠道微生物组(即,肠道中较少的多样化细菌群)有关已经有一段时间了。这是否意味着微生物组导致自闭症?最近的一项研究表明,"不,是反过来的":自闭症儿童经常有限制性饮食,因为感官体验会使他们不知所措,而有限的食物种类导致有限的微生物组种类。但接下来,如何解释粪便移植能改善自闭症儿童的行为?一个新出现的假设是:"粪便移植通过缓解不平衡的微生物组直接带来的不适症状,改善了自闭症儿童的行为,但却没有影响病情的神经基础"[3]。那么,相应的因果图将是。

最终,科学的进步是通过开发越来越精确和完整的模型来说明手头的所有事实。这同样适用于商业。实现对客户(或员工)行为的深入理解需要建立准确的因果图,正如我在书中所解释的那样 用R和Python进行行为数据分析 [4].

回顾和结论

每当你在数据中观察到变量A和B之间的相关性时,除了A导致B之外,正好有4种可能性。

  1. 观察到的相关性并不反映相关人群中的真实相关性,这可能是因为抽样噪声或偏见。
  2. 变量B导致变量A。
  3. 变量A和变量B有一个共同的原因。
  4. 有一个更复杂的因果结构在起作用。

这意味着你不必局限于 "相关性不是因果关系"。通过仔细思考其他的可能性并排除那些不靠谱的可能性,你可以得出这样的结论:"这种相关性可能反映了因果关系,一旦我们确定了要采取的行动,将通过运行A/B测试来确认"。如果事情变得太复杂,你可以建立因果图来确定发生了什么。

参考文献

[1]news.harvard.edu/gazette/sto…

[2] 这个例子来自Judea Pearl & Dana MacKenzie。 为什么之书》。因果关系的新科学.

[3] 《经济学人》,"肠道微生物组紊乱如何与自闭症联系在一起"

[4] Florent Buisson, 用R和Python进行行为数据分析。以客户为导向的数据实现真正的商业结果.

你也可以在Medium上查看我以前的文章。

附录。中位数估计器的稳健性

请记住,根据定义,人口的中位数是这样的:一半人口的数值低于它,一半人口的数值高于它。无论数据分布的形状、峰值的数量等如何,这一点都成立。

这意味着,如果你从该人口中随机抽出两个值x和y,有4种可能性。

  • 它们都低于人口中位数,概率为0.5*0.5=0.25。
  • 它们都高于人口中位数,概率也是0.25。
  • 一个低于人口中位数,另一个高于人口中位数,概率为0.5。

更一般地说,如果你有N个数值。

  • 它们都低于中位数,概率为0.5^N。
  • 它们都高于中位数,概率为0.5^N。
  • 中位数在N个数值的最低和最高之间,概率为1-2*(0.5^N)。

这意味着,即使只有5个值的样本,也有94%的机会,人口中位数被你的样本所包围。如果有10个值,这个概率达到99.8%。现在,我不能保证你会对这个置信区间的大小感到满意,但至少你会对手头的情况下抽样变化的重要性有一个非常清晰的认识。


Correlation Is Not Causation...Or Is It?原文发表于Towards Data Scienceon Medium,人们在这里通过强调和回应这个故事来继续对话。

猜你喜欢

转载自juejin.im/post/7055214428702113828