综述

摘要

  • 因果推理是一门横跨多个领域的课题,例如统计、计算机科学、教育、公共政策和经济。因果推理的含义是从可观测的数据来推理因果效应。与随机对照实验相比有可用数据量大,预算低的优势。

  • 根据它们是否需要潜在结果框架的所有三个假设而分为两种方法。

简介

  • 在日常用于中相关性(correlation) 和因果关系(causality)总会认为是一致,但是其实他们并不是一致的。相关性是指两个变量表现出同样的趋势,比如同增同减,或者一增一减。因果是指原因变量对结果变量起到影响。因果推断是根据效应发生的条件得出因果关系结论的过程。两者主要的区别在于因果推断分析了当原因变量发生改变时,结果变量发生的响应。所以相关性并不意味着因果关系

  • 举个例子,一个吃早饭的女孩通常比没有吃早饭的女孩体重轻,得出结论吃早饭能减肥。但是实际上两者只是相关关系,因为吃早饭的女孩可能会有更好的生活方式,运动健身,规律作息。在这些因素的共同作用下才表现的体重轻。所以吃早饭和体重轻是更好生活方式的共同原因。也可以称它为吃早饭和体重轻的混杂因素。

  • 实际上,随机对照试验总是既耗时又昂贵,所以研究不能涉及许多受试者,这可能不能代表治疗/干预最终针对的现实世界人群。另一个问题是随机对照试验只关注在样本的平均值上,它没有解释机制,也没有和个体相关。

  • 用药物实验来举例,一个病人只能同时接受一种药物治疗,没法知道另外一种药物在其身上的结果即反事实结果。另外受到采样策略限制,选中的实验者未必能代表全体。

  • 潜在结果框架是为了观测潜在的结果(例如上文的女孩是否变胖)然后计算执行影响。

  • 结构因果模型 (SCM),它包括因果图和结构方程。结构因果模型描述了系统的因果机制,其中一组变量及其之间的因果关系由一组联立结构方程建模。

  • 机器学习系统现在不单单关注准确率,很多场景下还需要知道推理的原因。同样机器学习也可以推算潜在的结果。所以因果推理和机器学习是互相影响的。

因果推理基础

定义

  • unit

    • unit是最小单元,可以代表一个患者,一个电影等等,该定义等同于样本。

  • treatment

    • 指执行在unit身上的行为,大多数treatment都是二分行为,即是否执行,执行的是实验组,不执行的是控制组。

  • potential outcome

    • 每个unit-treatment对产生的结果。

  • observed outcome

    • 实际上treatment执行在unit的结果

  • counterfactual outcome

    • 假设另一种treatment执行在unit上的结果,因为实际上只有一种treatment能作用于unit之上,剩下的treatment产生的结果就是counterfactual outcome

  • pre-treatment variables

    • 不被treatment影响的变量,即背景变量。

  • post-treatment variables

    • 被treatment影响的变量