ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

[因果推断工具箱] 混杂与去混杂

2022-05-13 13:05:22  阅读:222  来源: 互联网

标签:后门 混杂 路径 试验 偏倚 工具箱 因果


一、引子

在介绍混杂的定义及处理方法前,让我们通过一个例子直观地理解混杂。

1998年,《新英格兰医学杂志》的一项研究显示,退休男子经常散步和其死亡率下降之间存在关联。研究的具体情况如下:
研究问题:勤于运动的人是否更长寿
研究方法:追踪707人作为调查样本,在12年追踪期内记录其步行活动习惯和死亡率
观察结果:每天散步不到1英里的男性(“偶尔步行者”)的死亡率比每天步行超过2英里的男性(“经常步行者”)高出2倍

该研究可能存在的问题是,研究者没有规定谁来做偶尔步行者,谁来做经常步行者。调查样本中年轻的男性可能更愿意进行积极的锻炼,那么其在追踪期内的死亡率自然相对较低。此时,年龄因素可能影响我们对步行和死亡率之间因果关系的判断。我们称该问题中的年龄为混杂因子

可以用因果图对问题进行描述:
image

该研究中的其它因素也可能为混杂因子,如身体条件、饮食习惯等。

二、混杂

在研究中,记试验中的处理为X,结果为Y。我们想回答的问题是,X与Y之间的因果关系是怎样的。该因果关系可以通过干预概率\(P(Y|do(X))\)获得,而我们在试验中所能观察到的仅为给定处理条件的条件概率\(P(Y|X)\)。混杂的存在使得我们无法通过试验直接判断X、Y之间的因果关系。

混杂:任何使得给定处理效应的条件概率\(P(Y|X)≠P(Y|do(X))\)的因素。
混杂偏倚(confounding bias):当一个变量同时影响到选择接受处理的对象以及试验结果时产生。
image

例如:假设我们准备测试一种药物,而在试验过程中,我们让比对照组平均年龄更低的一组患者服用了这种药物,那么年龄就成为这一试验的一个混杂因子。如果我们没有关于年龄的数据,我们将无法从药物的虚假效果中区分出药物的真实效果。

三、去混杂方法

3.1 Z调整/Z控制

在引例中,如果确定了混杂因子Z为年龄,可以分别比较每个年龄组的处理组和对照组。然后,根据各个年龄组在目标总体中所占的百分比对每个年龄组进行加权,就可以计算出药物的平均效果。

3.2 随机对照试验(randomized controlled trial, RCT)

在随机对照试验中,处理X被随机地分配给某些个体,而不分配给其它个体,之后我们需要对比在两组个体中观察到的结果变量Y的变化的差异。例如,在引例中随机安排受试者的步行情况。

优点:

  • 消除了混杂偏倚
  • 使研究者能够量化不确定性

缺点:

  • 干预可能在事实上不可行或不道德
    例如:研究肥胖对心脏病的影响时,无法随机安排病人肥胖与否;研究吸烟的影响时,不能要求随机抽取的人抽10年的烟
  • 受试者可能无法代表目标总体
    对于某些较为复杂、参与起来不方便的试验,可能在招募受试者时遇到困难,而勉强找到的志愿参与者又无法代表我们的目标总体

3.3 后门标准(back-door criterion)

后门标准可以明确识别出因果图中哪些变量是去混因子,如果研究者能够收集到这些变量的数据,那么就可以对这些变量进行统计调整,从而在不真正实施干预的情况下对干预的结果做出预测。

do算子:do算子会清除指向X的所有箭头,这样可以防止有关X的任何信息在非因果方向流动。随机化处理具有同样的效果。若选择合适的变量进行统计调整,也具有同样的效果。

后门路径(back-door path):所有X和Y之间以指向X的箭头为开始的路径,这些路径允许X和Y之间的伪相关信息在管道中流通。

阻断因果图中所有的后门路径,则完成了对X和Y的去混杂。若我们试图通过某一组变量Z来实现这一点,则还需要确保Z的任何成员都不是X的后代,否则我们就可能部分或完全地关闭这条X与Y之间的因果路径。

关于如何阻断因果图中信息的流通,参见我的上一篇博客[因果推断工具箱] 因果图

下面为几个利用后门路径去混杂的例子:
1.
image
在图中,不存在指向X的后门路径,不需要进行去混杂。

image

在该图中,存在一个后门路径X←A→B←D→E→Y。该路径已经被对撞接合A→B←D阻断了,所以不需要对任何因素进行控制。

image
在该图中,存在后门路径X←B→Y,需要控制B来阻断该路径,如果B无法被观测到,那么不进行随机对照试验就无法估计X对Y的因果效应。

image
该图中有后门路径X←A→B←C→Y,该路径被B处的对撞所阻断,不需要控制任何事物。这种偏倚形式被称为“M偏倚”。
该偏倚的一个实例为:
image
在实际数据中,人们发现安全带的使用与吸烟和肺部疾病均相关。
若单独控制安全带的使用情况,则无法估计吸烟对肺部疾病的因果效应。
若同时控制对社会规范的态度、安全带的使用、对安全和健康相关措施的态度,那么该后门路径会再次被阻断,可以观察吸烟与肺部疾病的因果效应。

image
图中存在两个后门路径X←B←C→Y和X←A→B←C→Y。其中,第二条为M型路径,无需控制。我们需要关闭第一条路径。
若控制B,则打开了M型路径,需要再控制A和C以关闭M型路径。
若控制C,则关闭第一条路径而不影响其它路径。

参考资料

朱迪亚·珀尔,达纳·麦肯齐 著,江生,于华 译,“为什么:关于因果关系的新科学”,中信出版集团,2019.

标签:后门,混杂,路径,试验,偏倚,工具箱,因果
来源: https://www.cnblogs.com/ryou/p/16266294.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有