综述

摘要

因果推理是一门横跨多个领域的课题，例如统计、计算机科学、教育、公共政策和经济。因果推理的含义是从可观测的数据来推理因果效应。与随机对照实验相比有可用数据量大，预算低的优势。
根据它们是否需要潜在结果框架的所有三个假设而分为两种方法。

简介

在日常用于中相关性(correlation) 和因果关系(causality)总会认为是一致，但是其实他们并不是一致的。相关性是指两个变量表现出同样的趋势，比如同增同减，或者一增一减。因果是指原因变量对结果变量起到影响。因果推断是根据效应发生的条件得出因果关系结论的过程。两者主要的区别在于因果推断分析了当原因变量发生改变时，结果变量发生的响应。所以相关性并不意味着因果关系。
举个例子，一个吃早饭的女孩通常比没有吃早饭的女孩体重轻，得出结论吃早饭能减肥。但是实际上两者只是相关关系，因为吃早饭的女孩可能会有更好的生活方式，运动健身，规律作息。在这些因素的共同作用下才表现的体重轻。所以吃早饭和体重轻是更好生活方式的共同原因。也可以称它为吃早饭和体重轻的混杂因素。
实际上，随机对照试验总是既耗时又昂贵，所以研究不能涉及许多受试者，这可能不能代表治疗/干预最终针对的现实世界人群。另一个问题是随机对照试验只关注在样本的平均值上，它没有解释机制，也没有和个体相关。
用药物实验来举例，一个病人只能同时接受一种药物治疗，没法知道另外一种药物在其身上的结果即反事实结果。另外受到采样策略限制，选中的实验者未必能代表全体。
潜在结果框架是为了观测潜在的结果（例如上文的女孩是否变胖）然后计算执行影响。
结构因果模型 (SCM)，它包括因果图和结构方程。结构因果模型描述了系统的因果机制，其中一组变量及其之间的因果关系由一组联立结构方程建模。
机器学习系统现在不单单关注准确率，很多场景下还需要知道推理的原因。同样机器学习也可以推算潜在的结果。所以因果推理和机器学习是互相影响的。

因果推理基础

定义

unit
- unit是最小单元，可以代表一个患者，一个电影等等，该定义等同于样本。
treatment
- 指执行在unit身上的行为，大多数treatment都是二分行为，即是否执行，执行的是实验组，不执行的是控制组。
potential outcome
- 每个unit-treatment对产生的结果。
observed outcome
- 实际上treatment执行在unit的结果
counterfactual outcome
- 假设另一种treatment执行在unit上的结果，因为实际上只有一种treatment能作用于unit之上，剩下的treatment产生的结果就是counterfactual outcome
pre-treatment variables
- 不被treatment影响的变量，即背景变量。
post-treatment variables
- 被treatment影响的变量