因果2-潜在结果框架

摘要：从因果到统计，我们需要走多久？

上一章我们从因果和统计学的关系出发，初步了解了一个经典因果框架：潜在结果框架，今天我们继续学习这个框架。

图1是上周我们留下的”吃药治头疼“的数据表格。我们如何从该表格中求出平均处理效应呢？

图1. ”吃药治头疼“数据

让我们假定这是在随机对照实验中获得的数据，即统计关联等于因果效果，可以求得ATE= $\frac{1}{3}$ ，如图2所示。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kZWA0gJi-1620387610539)(https://i.loli.net/2021/04/07/TxyILYtArNeXDP7.png)]

图2. ATE求解1

但根据上一章可知，能满足随机对照试验的数据太少了，真实观测数据中充斥着混淆变量， $E [Y (1)] - E [Y (0)] = E [Y ∣ T = 1] - E [Y ∣ T = 0]$ 不成立。

如果想进行观察性研究，就必须突破这个壁垒，使得因果表达式能完全转化为统计表达式，我们称这种能力为identifiability（可识别性），即如果一个因果量可以通过纯统计量计算得到，则该因果量为可识别的，这意味着我们可以从观测数据中求得因果效应。

为此潜在结果框架提出了四个假设：

unconfoundedness
positivity
no interference
consistency

让我们根据ATE公式的推导一步一步理解这四个假设。

首先从ATE最开始的形式出发，其实最简单的ATE= $E [Y (1) - Y (0)]$ 也不是在任何时候都有意义，比如我们要治疗传染病，这个等式就不成立，在同一时间内对患病个体的治疗不仅会影响个体自己的结果变量，还会影响到未患病的个体，因此没法以患者个体作为单位去计算因果效应。

No interference便是ATE= $E [Y (1) - Y (0)]$ 背后支撑的假设。

No interference

无交互影响，其定义为：

$Y_i(t_1,...,t_{i-1},t_i,t_{i+1},...,t_n)=Yi(t_i)$

即t的不同取值之间没有干预作用，从数据的角度来理解，我们可以认为这个定义是为了保证T为一个集合，T中元素满足集合元素的三个定义，即确定性，互异性，无序性。

只有满足这个假设， $(Y (1) - Y (0)$ 才有意义。在数据满足No interference假设后，我们才能定义ATE为：

$E [Y (1) - Y (0)]$ （No interference）

$= E [Y (1)] - E [Y (0)]$ （期望的线性性质）

因为我们的目标是观测性研究，因此引入混淆变量X，

$= E x [E [Y (1) ∣ X] - E [Y (0) ∣ X]]$ （双重期望值定理）

至此便到了因果与统计的边界，需要下一个假设。

Unconfoundedness

无混淆性,公式为：

$(Y_{1}, Y_0) {\perp \!\!\! \perp} T|X$

在介绍他之前，我们先介绍ignorability。

ignorability

可忽略性，又名为exchangeability（可交换性）。公式为：

$(Y_{1}, Y_0) {\perp \!\!\! \perp} T$ ，即 $Y_{1}, Y_0$ 的取值和T的分布独立。

我们可以从三个角度来理解这个假设。

首先，根据简单的直觉，我们可以将其理解为随机对照实验中T是完全随机的这一条件。

从可忽略性的角度理解：我们需要注意， $(Y_{1}, Y_0) {\perp \!\!\! \perp} T$ 和 ${\perp \!\!\! \perp} T$ 的区别， ${\perp \!\!\! \perp} T$ 是指Y和T是完全独立的，甚至连因果效应都没有，而 $(Y_{1}, Y_0) {\perp \!\!\! \perp} T$ 中的Y已经确定了T的取值，说明的是Y的分布和T值的分配相互独立，也因此我们可以忽略T值的分布，即假定T是完全随机的。当然也可以理解为可以忽略混淆变量的影响。

我们还可以从可交换性的角度理解，如图3所示。我们可以随意交换T的取值，但Y(1)和Y(0)的期望不会改变。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kjgvTQmB-1620387610541)(https://i.loli.net/2021/04/07/91Eut6VqBp8ScKs.png)]

图3. 可交换性

同时根据图3的推导可以发现，只要满足ignorability，$ E[Y(1)]-E[Y (0)]=E[Y|T=1]-E[Y|T=0]$ 的等式就成立了。但这个假设是在忽略了混淆变量的情况下提出的，这在随机对照试验中成立，但不满足观测性研究的条件。

unconfoundedness

因此我们引入混淆变量，得到conditional ignorability假设，即Unconfoundedness，又称为conditional exchangeability，其公式为：

$(Y_{1}, Y_0) {\perp \!\!\! \perp} T |X$

公式很好理解，即在相关的混淆变量条件下(condition on)求条件分布，使得 $Y_{1}, Y_0)$ 和 $T$ 基于X的条件分布相互独立。

但只有这个假设，我们还不可以进一步推导公式

$E [Y (1) - Y (0)]$ （No interference）

$= E [Y (1)] - E [Y (0)]$ （期望的线性性质）

$= E x [E [Y (1) ∣ X] - E [Y (0) ∣ X]]$ （双重期望值定理），我们仍需要另一个假设，原因如图4，我们无法保证红线分母有意义。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ld4HwL81-1620387610542)(https://i.loli.net/2021/04/07/ucwbEf852zkoF4p.png)]

图4. positivity

unconfoundedness是不可测的。我们无法确认是否还有未观测的confounder。

Positivity

译为非零性，但感觉不够直观。又称为Overlap（重叠性），定义为：

给定所有协变量x的取值 $P (X = x) > 0$ ,都有 $0 < P (T = 1 ∣ X = x) < 1$

为了解决图4问题，我们需要定义这个假设确保分母的乘积始终大于0，即满足positivity。基于该假设，图4的分母便始终有意义。这个假设的现实意义也很好理解，如图5所示，假设对于一组数据，我们想关注里面X=x子组的因果效应，但发现X=x子组里全是实验组的数据，没有控制组，那就无法求得因果效应。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VAkk9k0o-1620387610544)(https://i.loli.net/2021/04/07/mAwDefFCWv753oJ.png)]

图5. positivity直觉

我们还可以从overlap的角度理解，考虑图5所示的情况时，P(X|T)的取值范围。当X=x时，T永远只等于1,换句话说就是P(X|T=0)的取值范围不包含X=x，那我们可以据此画一个直方图，横轴表示x的取值范围，竖轴表示P(x|t)，如图6所示，（a)表示完全违背positivity假设， $P (X ∣ T = 0)$ 和 $P (X ∣ T = 1)$ 两个分布没有overlap重叠面积，（b)表示部分遵守positivity假设，即只有重叠的部分满足positivity假设，（c)表示完全满足positivity假设，此时数据中所有X的取值都满足positivity。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gg0tITpd-1620387610545)(https://i.loli.net/2021/04/07/ZDmHa1pGkOe6nNC.png)]

图6. overlap

The Positivity-Unconfoundedness Tradeoﬀ

positivity假设和unconfoundedness假设之间的权衡。

图6揭示了在只有一个混淆变量X时，positivity违背的情况。我们看看逐步增加混淆变量X个数时，positivity会发生什么变化，如图7所示。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w8DtPAYO-1620387610546)(https://i.loli.net/2021/04/07/BLpHU9RhZiVIzWd.png)]

图7. positivity和unconfoundedness

可以发现，随着X个数的增多，positivity假设成立的可能也越小。但刚好我们控制的X个数越多，满足unconfoundedness的可能性也越高，这说明positivity和unconfoundedness很难两全，我们在实验中往往需要在二者间做一个权衡。

好了，介绍完positivity假设，我们就可以进一步推公式了

$E [Y (1) - Y (0)]$ （No interference）

$= E [Y (1)] - E [Y (0)]$ （期望的线性性质）

$= E x [E [Y (1) ∣ X] - E [Y (0) ∣ X]]$ （双重期望值定理）

$= E x [E [Y (1) ∣ T = 1, X] - E [Y (0) ∣ T = 0, X]]$ （unconfoundedness和positivity）

到这里还剩最后一步，Y(1)=>Y的转化，让我们看最后一个假设。

Consistency

一致性，定义：

如果处理为T，则观测结果 $Y$ 就是接受处理 $T$ 的潜在结果，即 $T = t$ ,则 $Y = Y (t)$ ，或者可直接写做 $Y = Y (T)$ 。

定义可能比较绕，我们简单理解他，其实说的就是对于任意t，都只存在一个Y值。举个例子，假如我们定义T为喝水，Y为立即死亡，研究喝水是否会导致人立即死亡。然后让有的人喝白开水，有的人喝毒水，这是我们会发现对于T=1，Y可以取0和1两个值，那这种情况下就不满足consistency。

再结合no interference，从数学角度理解，我们称满足no interference 和 consistency两个假设时，T到Y满足映射关系，也可以说Y是T的函数，我们又称当Y是T的函数时，满足SUTVA（stable unit-treatment value assumption，个体处理稳定性假设）。

Adjustment Formula

调整公式。

再基于consistency假设，我们就可以完全建立因果到统计的桥梁，从观测数据中计算因果效应了，公式：

$E [Y (1) - Y (0)]$ （No interference）

$= E [Y (1)] - E [Y (0)]$ （期望的线性性质）

$= E x [E [Y (1) ∣ X] - E [Y (0) ∣ X]]$ （双重期望值定理）

$= E x [E [Y (1) ∣ T = 1, X] - E [Y (0) ∣ T = 0, X]]$ （unconfoundedness和positivity）

$= E x [E [Y ∣ T = 1, X] - E [Y ∣ T = 0, X]]$ （consistency）

我们称建立从因果到统计桥梁的这个公式为Adjustment Formula（调整公式）或者identification of ATE(ATE识别公式):

$E [Y (1) - Y (0)] = E x [E [Y ∣ T = 1, X] - E [Y ∣ T = 0, X]]$

好的这一章到这里就结束了，这一章内容十分重要，这是我们学到的第一个求因果效应的模型，公式看起来很多，但其实都是初中级别的数学推导，希望感兴趣的同学可以自己跟着调整公式过一下思路：如图8所示，我们通过识别因果量，得到统计量，再通过统计量得到统计结果。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5tEwN3rN-1620387610547) (https://i.loli.net/2021/04/07/1OenNGbFMxsdDXf.jpg)]

图8. 因果推理流程

当然如果同学们觉得还是有些云里雾里也没关系，下一章开始，我们会介绍一个更直观的框架-因果图。

Reference

Introduction to Causal Inference