因果2-潜在结果框架

因果2-潜在结果框架

摘要:从因果到统计,我们需要走多久?

上一章我们从因果和统计学的关系出发,初步了解了一个经典因果框架:潜在结果框架,今天我们继续学习这个框架。

图1是上周我们留下的”吃药治头疼“的数据表格。我们如何从该表格中求出平均处理效应呢?
image-20210331091746078.png

图1. ”吃药治头疼“数据

让我们假定这是在随机对照实验中获得的数据,即统计关联等于因果效果,可以求得ATE= 1 3 \frac{1}{3} 31,如图2所示。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kZWA0gJi-1620387610539)(https://i.loli.net/2021/04/07/TxyILYtArNeXDP7.png)]

图2. ATE求解1

但根据上一章可知,能满足随机对照试验的数据太少了,真实观测数据中充斥着混淆变量, E [ Y ( 1 ) ] − E [ Y ( 0 ) ] = E [ Y ∣ T = 1 ] − E [ Y ∣ T = 0 ] E[Y(1)]-E[Y (0)]=E[Y|T=1]-E[Y|T=0] E[Y(1)]E[Y(0)]=E[YT=1]E[YT=0] 不成立。

如果想进行观察性研究,就必须突破这个壁垒,使得因果表达式能完全转化为统计表达式,我们称这种能力为identifiability(可识别性),即如果一个因果量可以通过纯统计量计算得到,则该因果量为可识别的,这意味着我们可以从观测数据中求得因果效应。

为此潜在结果框架提出了四个假设:

  • unconfoundedness
  • positivity
  • no interference
  • consistency

让我们根据ATE公式的推导一步一步理解这四个假设。

首先从ATE最开始的形式出发,其实最简单的ATE= E [ Y ( 1 ) − Y ( 0 ) ] E[Y(1)-Y(0)] E[Y(1)Y(0)]也不是在任何时候都有意义,比如我们要治疗传染病,这个等式就不成立,在同一时间内对患病个体的治疗不仅会影响个体自己的结果变量,还会影响到未患病的个体,因此没法以患者个体作为单位去计算因果效应。

No interference便是ATE= E [ Y ( 1 ) − Y ( 0 ) ] E[Y(1)-Y(0)] E[Y(1)Y(0)]背后支撑的假设。

No interference

无交互影响,其定义为:

Y i ( t 1 , . . . , t i − 1 , t i , t i + 1 , . . . , t n ) = Y i ( t i ) Y_i(t_1,...,t_{i-1},t_i,t_{i+1},...,t_n)=Yi(t_i) Yi(t1,...,ti1,ti,ti+1,...,tn)=Yi(ti)

即t的不同取值之间没有干预作用,从数据的角度来理解,我们可以认为这个定义是为了保证T为一个集合,T中元素满足集合元素的三个定义,即确定性,互异性,无序性。

只有满足这个假设, ( Y ( 1 ) − Y ( 0 ) (Y(1)-Y(0) (Y(1)Y(0)才有意义。在数据满足No interference假设后,我们才能定义ATE为:

E [ Y ( 1 ) − Y ( 0 ) ] E[Y(1)-Y(0)] E[Y(1)Y(0)](No interference)

= E [ Y ( 1 ) ] − E [ Y ( 0 ) ] =E[Y(1)]-E[Y(0)] =E[Y(1)]E[Y(0)] (期望的线性性质)

因为我们的目标是观测性研究,因此引入混淆变量X,

= E x [ E [ Y ( 1 ) ∣ X ] − E [ Y ( 0 ) ∣ X ] ] =Ex[E[Y(1)|X]-E[Y(0)|X]] =Ex[E[Y(1)X]E[Y(0)X]] (双重期望值定理)

至此便到了因果与统计的边界,需要下一个假设。

Unconfoundedness

无混淆性,公式为:

( Y 1 , Y 0 ) ⊥  ⁣ ⁣ ⁣ ⊥ T ∣ X (Y_{1}, Y_0) {\perp \!\!\! \perp} T|X (Y1,Y0)TX

在介绍他之前,我们先介绍ignorability。

ignorability

可忽略性,又名为exchangeability(可交换性)。公式为:

( Y 1 , Y 0 ) ⊥  ⁣ ⁣ ⁣ ⊥ T (Y_{1}, Y_0) {\perp \!\!\! \perp} T (Y1,Y0)T,即 Y 1 , Y 0 Y_{1}, Y_0 Y1,Y0的取值和T的分布独立。

我们可以从三个角度来理解这个假设。

首先,根据简单的直觉,我们可以将其理解为随机对照实验中T是完全随机的这一条件。

从可忽略性的角度理解:我们需要注意, ( Y 1 , Y 0 ) ⊥  ⁣ ⁣ ⁣ ⊥ T (Y_{1}, Y_0) {\perp \!\!\! \perp} T (Y1,Y0)T Y ⊥  ⁣ ⁣ ⁣ ⊥ T Y {\perp \!\!\! \perp} T YT的区别, Y ⊥  ⁣ ⁣ ⁣ ⊥ T Y {\perp \!\!\! \perp} T YT是指Y和T是完全独立的,甚至连因果效应都没有,而 ( Y 1 , Y 0 ) ⊥  ⁣ ⁣ ⁣ ⊥ T (Y_{1}, Y_0) {\perp \!\!\! \perp} T (Y1,Y0)T中的Y已经确定了T的取值,说明的是Y的分布和T值的分配相互独立,也因此我们可以忽略T值的分布,即假定T是完全随机的。当然也可以理解为可以忽略混淆变量的影响。

我们还可以从可交换性的角度理解,如图3所示。我们可以随意交换T的取值,但Y(1)和Y(0)的期望不会改变。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kjgvTQmB-1620387610541)(https://i.loli.net/2021/04/07/91Eut6VqBp8ScKs.png)]

图3. 可交换性

同时根据图3的推导可以发现,只要满足ignorability,$ E[Y(1)]-E[Y (0)]=E[Y|T=1]-E[Y|T=0]$ 的等式就成立了。但这个假设是在忽略了混淆变量的情况下提出的,这在随机对照试验中成立,但不满足观测性研究的条件。

unconfoundedness

因此我们引入混淆变量,得到conditional ignorability假设,即Unconfoundedness,又称为conditional exchangeability,其公式为:

( Y 1 , Y 0 ) ⊥  ⁣ ⁣ ⁣ ⊥ T ∣ X (Y_{1}, Y_0) {\perp \!\!\! \perp} T |X (Y1,Y0)TX

公式很好理解,即在相关的混淆变量条件下(condition on)求条件分布,使得 ( Y 1 , Y 0 ) (Y_{1}, Y_0) (Y1,Y0) T T T基于X的条件分布相互独立。

但只有这个假设,我们还不可以进一步推导公式

E [ Y ( 1 ) − Y ( 0 ) ] E[Y(1)-Y(0)] E[Y(1)Y(0)](No interference)

= E [ Y ( 1 ) ] − E [ Y ( 0 ) ] =E[Y(1)]-E[Y(0)] =E[Y(1)]E[Y(0)] (期望的线性性质)

= E x [ E [ Y ( 1 ) ∣ X ] − E [ Y ( 0 ) ∣ X ] ] =Ex[E[Y(1)|X]-E[Y(0)|X]] =Ex[E[Y(1)X]E[Y(0)X]] (双重期望值定理),我们仍需要另一个假设,原因如图4,我们无法保证红线分母有意义。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ld4HwL81-1620387610542)(https://i.loli.net/2021/04/07/ucwbEf852zkoF4p.png)]

图4. positivity

unconfoundedness是不可测的。我们无法确认是否还有未观测的confounder。

Positivity

译为非零性,但感觉不够直观。又称为Overlap(重叠性),定义为:

给定所有协变量x的取值 P ( X = x ) > 0 P(X=x)>0 P(X=x)>0,都有 0 < P ( T = 1 ∣ X = x ) < 1 0<P(T=1|X=x)<1 0<P(T=1X=x)<1

为了解决图4问题,我们需要定义这个假设确保分母的乘积始终大于0,即满足positivity。基于该假设,图4的分母便始终有意义。这个假设的现实意义也很好理解,如图5所示,假设对于一组数据,我们想关注里面X=x子组的因果效应,但发现X=x子组里全是实验组的数据,没有控制组,那就无法求得因果效应。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VAkk9k0o-1620387610544)(https://i.loli.net/2021/04/07/mAwDefFCWv753oJ.png)]

图5. positivity直觉

我们还可以从overlap的角度理解,考虑图5所示的情况时,P(X|T)的取值范围。当X=x时,T永远只等于1,换句话说就是P(X|T=0)的取值范围不包含X=x,那我们可以据此画一个直方图,横轴表示x的取值范围,竖轴表示P(x|t),如图6所示,(a)表示完全违背positivity假设, P ( X ∣ T = 0 ) P(X|T=0) P(XT=0) P ( X ∣ T = 1 ) P(X|T=1) P(XT=1)两个分布没有overlap重叠面积,(b)表示部分遵守positivity假设,即只有重叠的部分满足positivity假设,(c)表示完全满足positivity假设,此时数据中所有X的取值都满足positivity。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gg0tITpd-1620387610545)(https://i.loli.net/2021/04/07/ZDmHa1pGkOe6nNC.png)]

图6. overlap

The Positivity-Unconfoundedness Tradeoff

positivity假设和unconfoundedness假设之间的权衡。

图6揭示了在只有一个混淆变量X时,positivity违背的情况。我们看看逐步增加混淆变量X个数时,positivity会发生什么变化,如图7所示。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w8DtPAYO-1620387610546)(https://i.loli.net/2021/04/07/BLpHU9RhZiVIzWd.png)]

图7. positivity和unconfoundedness

可以发现,随着X个数的增多,positivity假设成立的可能也越小。但刚好我们控制的X个数越多,满足unconfoundedness的可能性也越高,这说明positivity和unconfoundedness很难两全,我们在实验中往往需要在二者间做一个权衡。

好了,介绍完positivity假设,我们就可以进一步推公式了

E [ Y ( 1 ) − Y ( 0 ) ] E[Y(1)-Y(0)] E[Y(1)Y(0)](No interference)

= E [ Y ( 1 ) ] − E [ Y ( 0 ) ] =E[Y(1)]-E[Y(0)] =E[Y(1)]E[Y(0)] (期望的线性性质)

= E x [ E [ Y ( 1 ) ∣ X ] − E [ Y ( 0 ) ∣ X ] ] =Ex[E[Y(1)|X]-E[Y(0)|X]] =Ex[E[Y(1)X]E[Y(0)X]] (双重期望值定理)

= E x [ E [ Y ( 1 ) ∣ T = 1 , X ] − E [ Y ( 0 ) ∣ T = 0 , X ] ] =Ex[E[Y(1)|T=1,X]-E[Y(0)|T=0,X]] =Ex[E[Y(1)T=1,X]E[Y(0)T=0,X]](unconfoundedness和positivity)

到这里还剩最后一步,Y(1)=>Y的转化,让我们看最后一个假设。

Consistency

一致性,定义:

如果处理为T,则观测结果 Y Y Y就是接受处理 T T T的潜在结果,即 T = t T=t T=t,则 Y = Y ( t ) Y=Y(t) Y=Y(t),或者可直接写做 Y = Y ( T ) Y=Y(T) Y=Y(T)

定义可能比较绕,我们简单理解他,其实说的就是对于任意t,都只存在一个Y值。举个例子,假如我们定义T为喝水,Y为立即死亡,研究喝水是否会导致人立即死亡。然后让有的人喝白开水,有的人喝毒水,这是我们会发现对于T=1,Y可以取0和1两个值,那这种情况下就不满足consistency。

再结合no interference,从数学角度理解,我们称满足no interference 和 consistency两个假设时,T到Y满足映射关系,也可以说Y是T的函数,我们又称当Y是T的函数时,满足SUTVA(stable unit-treatment value assumption,个体处理稳定性假设)。

Adjustment Formula

调整公式。

再基于consistency假设,我们就可以完全建立因果到统计的桥梁,从观测数据中计算因果效应了,公式:

E [ Y ( 1 ) − Y ( 0 ) ] E[Y(1)-Y(0)] E[Y(1)Y(0)](No interference)

= E [ Y ( 1 ) ] − E [ Y ( 0 ) ] =E[Y(1)]-E[Y(0)] =E[Y(1)]E[Y(0)] (期望的线性性质)

= E x [ E [ Y ( 1 ) ∣ X ] − E [ Y ( 0 ) ∣ X ] ] =Ex[E[Y(1)|X]-E[Y(0)|X]] =Ex[E[Y(1)X]E[Y(0)X]] (双重期望值定理)

= E x [ E [ Y ( 1 ) ∣ T = 1 , X ] − E [ Y ( 0 ) ∣ T = 0 , X ] ] =Ex[E[Y(1)|T=1,X]-E[Y(0)|T=0,X]] =Ex[E[Y(1)T=1,X]E[Y(0)T=0,X]](unconfoundedness和positivity)

= E x [ E [ Y ∣ T = 1 , X ] − E [ Y ∣ T = 0 , X ] ] =Ex[E[Y|T=1,X]-E[Y|T=0,X]] =Ex[E[YT=1,X]E[YT=0,X]](consistency)

我们称建立从因果到统计桥梁的这个公式为Adjustment Formula(调整公式)或者identification of ATE(ATE识别公式):

E [ Y ( 1 ) − Y ( 0 ) ] = E x [ E [ Y ∣ T = 1 , X ] − E [ Y ∣ T = 0 , X ] ] E[Y(1)-Y(0)]=Ex[E[Y|T=1,X]-E[Y|T=0,X]] E[Y(1)Y(0)]=Ex[E[YT=1,X]E[YT=0,X]]

好的这一章到这里就结束了,这一章内容十分重要,这是我们学到的第一个求因果效应的模型,公式看起来很多,但其实都是初中级别的数学推导,希望感兴趣的同学可以自己跟着调整公式过一下思路:如图8所示,我们通过识别因果量,得到统计量,再通过统计量得到统计结果。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5tEwN3rN-1620387610547)(https://i.loli.net/2021/04/07/1OenNGbFMxsdDXf.jpg)]

图8. 因果推理流程

当然如果同学们觉得还是有些云里雾里也没关系,下一章开始,我们会介绍一个更直观的框架-因果图

Reference

Introduction to Causal Inference

猜你喜欢

转载自blog.csdn.net/euzmin/article/details/116500882