相关≠因果关系:听听统计学家的呐喊吧!


全文共2150字,预计学习时长6分钟

图源:unsplash

做实验时,我们常常会谈论到因果关系。在因果之外还有相关性,与之有所联系但也不同,那么什么是相关性呢?它是指数据集中的变量看起来像是以某种方式在一起变化的情况。 

 

 

如果它们似乎是以某种方式一起移动的,那么X和Y两个变量就是相关的。例如,“当X向高处变化时,Y趋于更高”(这称为“正相关”)或者“当X向高处变化时,Y趋于更低”(这称为“负相关”)。

 

扫描二维码关注公众号,回复: 11556368 查看本文章

 

如果你正在寻找用于(人口)相关性的公式,那么维基百科即可满足你的所有需求。但如果你想要更直观的解释,那这篇文章很适合你。

 

看,这儿有一座斜坡:在山的左侧,山体高度和(从左到右)的距离呈正相关。当山体高度上升时,距离也随之变化。在山的右侧,山体的高度和距离呈负相关。

 

 

当大多数人听到“相关性”这个词时,他们倾向于想到完全线性相关。在上面的山上向右迈出水平一步(X),在同一个斜坡上的任何地方都会得到相同的海拔高度(Y)变化。只要你从左到右(正相关),就不会出现让人诧异的锯齿状或弯曲的部分。

 

记住,只有当你从左向右徒步时,向上爬才是呈正相关的;如果你从右边靠近斜坡,统计学家就不知道该如何计算了。统计学家会告诉你,永远不要从右侧开始一次徒步旅行。这让我们感到很困惑,但如果你正确地徒步,那么“向上”就是“正相关的”。

 

不完全线性相关

 

实际上,这座山并不完美,高度和距离之间的关联度小于100%。根据我们向上还是向下,你会在前面弹出一个+/-符号,所以相关性介于-1和1之间。这是因为其公式(从上面的维基百科粘贴)除以标准差,从而消除了每个变量的离散度。

 

如果没有分母,你很难看出这种关系的强度是一样的,无论你是用英寸还是厘米来衡量身高。每当你看到统计数据中的缩放/标准化时,它通常只会帮助你比较用不同单位测量的苹果和橘子。

 

不相关变量

零的相关性是什么样子的?你是不是在想一朵凌乱的云,里面没有明显的图案?比如:

 

 

你知道我如何知道X和Y真的没有关系吗?因为我就是这样创造了它们。如果你想模拟两个不相关变量的类似绘图,请尝试在 R online中运行以下基本代码片段:

 

X <- runif(100) # 100 regular random numbersbetween 0 and 1Y <- rnorm(100) # Another 100 random numbers from bell curveplot(X, Y, main = "X and Y have nothing to do with one another")

但是还有另一种方式。关系越不线性,相关性就越接近于零。事实上,如果你把这座山看成一个整体(而不是每次只看到一个斜坡),你会发现两者的相关性为0,即使高度和距离之间有明显的关系。

 

 

X <- seq(-1, 1, 0.01) # Go from -1 to 1 inincrements of 0.01Y <- -X^2 # Secret formula for the ideal hillplot(X, Y, main = "The linear correlation is zero")print(cor(X, Y)) # Check the correlation is zero

相关性不等于因果关系

 

线性相关性的存在意味着数据以某种线性方式一起移动,这并不意味着X导致Y(或者相反),它们可能都是由于完全不同的原因而移动的。

 

假设你我投资了同一只股票,我们称它为ZOOM。大流行中的投资者原本打算购买ZM(视频通信公司),却意外地购买了ZOOM,ZOOM价格上涨了900%,而真正的ZM甚至没有翻倍。想象一下,歪打正着的人是我们。

 

图源:unsplash

由于我们都持有ZOOM,所以你的股票投资组合价值($X)与我的股票投资组合价值($Y)是相关的。如果价格上涨,我们都能获利。但这并不意味着我的投资组合价值,决定了你的投资组合价值。我不能以惩罚你的方式抛售我所有的股票,假设我卖掉了所有的东西买了一堆蛋糕,我的投资组合价值却突然变成零,但那并不意味着你的股票现在一文不值。

 

许多决策者正是因为这个原因而一败涂地。看到两个相关的变量,他们投入资源来影响事物一,试图改变事物二……但结果并不是他们所期望的那样。没有实验, 就没有理由认为第一件事驱动了第二件事。

相关性不等于因果关系。“伪相关”是指两个相关变量之间没有直接因果关系的情况。它们之间的相关性可能是由于巧合,也可能是由于第三个变量(通常是看不见的,也就是“潜在”)的影响。永远不要只看到数据的表面价值,事情往往不是看到的那样

 

 

如果探求因果关系,那你需要一个真正的实验。如果没有实验,那你所拥有的就只是相关性,而对于许多基于因果推理的决定来说,这是没有任何帮助的。切忌根据虚无缥缈的相关性做出重要决定。


推荐阅读专题

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组:钟惠、雷玥

相关链接:

https://towardsdatascience.com/what-is-correlation-975ea899aaed

如转载,请后台留言,遵守转载规范

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

猜你喜欢

转载自blog.csdn.net/duxinshuxiaobian/article/details/107888431