一图讲清因果推断方法论，无法 AB 测试时分析的万能钥匙

1. 背景

在产品快速迭代的过程中，数据分析师需要量化评估不同的市场营销活动和产品迭代等事件实际影响业务指标的效果，探索产品和业务的因果关系，并从结果中学习来不断验证产品迭代方向，使其业务走向更加清晰。

但产品本身有自然增长趋势，且具有较明显的季节性、周期性波动，如何排除这类自然因素和其他干扰因素对产品的影响大小，互联网行业通用方法为 AB 测试；但对于某些指标的流量无法满足或部分场景无法实现 AB 测试时，统计学上的“因果推断”方法正成为互联网业务评估应用的新方向，通常用于行为科学研究中，以了解从观察数据结果中的业务因果关系。

2. 效果量化评估方法

效果量化评估有两个通用的研究设计方向：

一是 AB 测试。在实验研究中将用户随机分配到不同的实验组和控制组中，然后计算达到实验效果所需的样本量，实验满足样本量时计算实验结果。因为随机性控制了其他干扰变量的影响，所以实验结果就是该实验因子对结果变量的真实影响大小。

二是观察研究。统计相关性并不意味着因果关系，甚至因果关系也无法直接倒推相关性成立，所以想找到真正影响到业务的因素并不容易。通用的 A/B Test 也有一定的局限性，需要占用足量的随机流量，并且需要持续一段时间以收集数据，产品流量较小时，需要花一定的时间实现，比较耗费人力；鉴于 A/BTest 种种局限性，如何利用手边已有的历史数据进行 “因果推断”分析。

3. 因果推断方法和适用场景

观察研究中的因果推断利用的反事实理论就是和我们能够观测到的现实情况相反的一种状态（Rubin 1980）。因果推理（Causal inference）是根据影响发生的条件得出因果关系结论的过程，是研究如何更加科学地识别变量间的因果关系（Causality）。在因果关系中，原因对结果负有部分责任，而结果又部分取决于原因。客观事物普遍存在着内在的因果联系，人们只有弄清事物发展变化的前因后果，才能全面地、本质地认识事物。基干事物发展的这种规律，在论证观点时，有时就可以直接从事物本身的因果关系中进行推论，这就叫因果推理法。几十年来，因果推理一直是统计学、计算机科学、教育学、公共政策和经济学等许多领域的重要研究课题。总体而言，因果推论的见解可以帮助识别用户痛点，为产品迭代提供方向，并提供更个性化的用户体验。

下图汇总了目前解决各个分析场景的方法论框架：

这里介绍几种方法的适用场景，双重差分分析方法，推断在进行干预前后实验组与对照组之间的结果差异。方法的典型用例是在特定城市推广营销活动或新产品功能。比较推广城市和未推广城市在同一时间段上的结果差距，那么这个差距值即为该事件的真实效果。

另一种非常典型的因果推断方法，称为断点回归方法，该方法将一连续值进行分段，查看在断点处是否有结果变量上的差异。例如研究定价的不同水平如何影响用户购买决策。

倾向得分匹配法，产品经理在会上展示新加了某功能后的用户复购数据。其中使用新功能的用户群复购率比未使用的用户群高20%。于是认为该功能提高了用户复购率，想在产品上全面推广该功能。作为数据分析师如何去评估分析该效果？数据主要包括三方面：用户的特征变量、是否使用功能，是否发生复购。按照1:1的匹配比例，最终匹配上1116对用户数据。其中处理组中的用户复购率为24%，对照组为13%，两组的差距显著。因此从数据角度证明该功能确实能提高复购率。但是归因为功能提高的复购率应该为11%，而不是20%。

匹配数量	1116
处理组（使用功能）复购率	0.24
对照组（未使用功能）复购率	0.13
均值差异	0.11***

再比如合成控制法和贝叶斯结构时间序列方法，原理在于干预事件发生前后结果变量时间序列数据是否有显著变化，这种方法称为中断时间序列设计。这种方法通常用在产品复盘时指标分析。

目前关于因果推断业务应用相关原创文章：

数据运营36计(二)：如何用合成控制法判断策略实施效果

数据分析36计(七)：营销增益模型(uplift model)如何识别营销敏感用户群，Python实现

数据运营36计(八)：断点回归(RDD)评估产品设计效果
 数据分析36计(九)：倾向得分匹配法(PSM)量化评估效果分析
 数据分析36计(12)：做不了AB测试，如何量化评估营销、产品改版等对业务的效果