贝叶斯网络之父无人问津？一文详解Judea Pearl NIPS 2017报告

显示全部楼层 · 2019-12-29 23:04

这两天Facebook、twitter等社交网络上开始流传Judea Pearl在NIPS 2017演讲的照片：

社交网络上很多人都被这张照片震惊了，纷纷表示，贝叶斯网络之父、因人工智能概率方法和因果推理算法获得2011年图灵奖的Judea Pearl对着一个几乎空无一人的房间做报告是NIPS上悲惨的一幕，这一天对机器学习而言是悲惨的一天。#p#分页标题#e#

Judea Pearl在UCLA的博士生Karthika Mohan将网上的消息告诉了Pearl，Pearl被社交网络上人们的反应逗笑了(amused by the reactions on social media)。

实际上，这张照片的拍摄者只是故意取了一个凸显听众很少的视角。原本的报告厅可以容纳几百个听众，结果参加的有50-100人，因此某些区域听众很少，给了拍摄者进行艺术加工的机会。#p#分页标题#e#

所以，事实上听众并没有少到几乎空无一人的程度，还是有几十个听众的。而且，听众比预期的少，也有NIPS组织的问题。首先，当时有多个讲座同时进行，分流了很多听众；其次，NIPS的应用上并没有标明详细信息，很多人根本不知道Judea Pearl会来做报告。

NIPS应用中没有演讲者信息（图片来源：latentjasper的推特）#p#分页标题#e#

既然上面那张照片是艺术加工的产物，那么下面这一张也有点可疑：

摄影者取景的角度，给人一种Pearl很落寞的感觉。实际上，老爷子可能只是演讲完了坐一会休息一下而已，可能是在思考某个问题。

事实上，Pearl老爷子本人很淡定。Karthika Mohan说Pearl在NIPS报告之后很愉快地和学生解释，#p#分页标题#e#过不了多久NIPS的参加者们就会撞上他报告里提到的机器学习理论上的限制。

但是，之所以说这两种照片是艺术加工，而不是彻底的歪曲，因为，某种意义上说，Pearl确实有些孤军奋战的味道。

Pearl在NIPS 2017上介绍了他2016年发表、2017年大修的报告《Theoretical Impediments to Machine Learning》。这个报告末尾列了17篇参考文献，其中，除了一篇哲学方面和一篇流行病学方面的论文，其余14篇论文Pearl本人均为第一或第二作者，剩下一篇的作者Adnan Darwiche（UCLA教授、JAIR主编、AAAI Fellow），博后是在UCLA跟Pearl读的。

不知道你是否好奇，Pearl这篇报告具体是什么内容？下面就跟我们一起来看看这篇报告吧。#p#分页标题#e#

当前机器学习的限制

如前所述，Pearl的报告有2016、2017两个版本。在2016年的报告中，Pearl只是说当前机器学习基于统计学模型，因此在表现上有一些理论上的限制。而在2017年的报告中，Pearl进一步强调当前机器学习基于模型盲目（model-blind）的统计学模型。在NIPS 2017报告现场，更是直斥现有的机器学习只是又慢又呆的曲线拟合练习。

#p#分页标题#e#

Pearl指出，当前机器学习的表现提升，依赖于大量参数的调优，而这一过程，是非常缓慢和低效的。Pearl将其类比为基于自然选择的达尔文演化。老鹰和蛇花了数百万年才演化出了独特的视觉系统。而人类在差不多一千年左右的时间里就发明了眼镜和望远镜。这是因为人类具备代表环境的心智表示，可以根据自己的意愿对这个心智表示进行操作，想象出和当前环境不同的假象环境也就是说，人类会问要是会怎么样的问题，包括要是我这么做，会怎么样？和要是我当初那么做了，会怎么样？

要是会怎么样，背后其实隐含着因果推断。

因果推断的层次#p#分页标题#e#

Pearl将因果推断分为三个层次：

关联（association）

介入（intervention）

反事实（counterfactual）

#p#分页标题#e#

关联是最简单的类型，可以直接从数据中根据条件和期望推断出来。比如，统计分析数据，发现价格下降了，销量上涨了。用条件概率，可以形式化地表示为：

P(y|x)

因为可以直接从统计中推断，所以当前的机器学习很擅长处理这类问题。

和关联不同，介入就无法直接从数据中统计得出了。因为这涉及到反应，比如，价格下降了，消费者既可能因为觉得优惠而增加购买，但也可能因为商品价格过低可能质量有问题而减少购买，或者抱着过一段时间说不定还会降而持币观望。介入的条件概率可以形式化地表示为：#p#分页标题#e#

P(y|do(x), z)

其中，z表示do(x)引起的事件。

当前机器学习处理这样的问题就没有处理关联那么轻松了，但仍可以通过训练历史数据，加上一些试验来建模介入问题。

介入面向的是未来的问题，如果我们让介入回溯到过去，也就是说，从要是我现在这么做，未来会发生什么，回溯到要是当初我这么做，现在会发生什么，我们就得到了因果推断的第三个层次反事实。回到降价的例子，反事实要问的是要是当初我们降价了，现在销量会上涨吗？反事实的条件概率可以表示为：#p#分页标题#e#

P(y_x|x', y')

上面的公式表示，在已知发生了事件x'和时间y'的前提下，我们想知道，假设过去发生的不是事件x'，而是事件x的话，那么发生事件y的条件概率是多少？

当前的机器学习无力回答反事实的问题，大多数机器学习模型甚至使用了不可能回答这一问题的表示。

#p#分页标题#e#

而对于推断因果关系而言，反事实是非常关键的。比如，感冒了，吃了感冒药，感冒好了。这一经历并不能证明感冒药的效果。我们想要知道感冒药是否对治疗感冒有效果，需要研究相应的反事实：要是当初没吃感冒药，现在感冒会不会好？如果当初没吃感冒药，现在感冒好了，那说明其实感冒药并没有起到作用，可能感冒是自愈的。

从上面的例子也可以看出，反事实在因果推断的层级中，位于最高层。在环境和条件不变的前提下，如果我们知道要是当初没吃感冒药，现在感冒会不会好？，那我们必然知道我吃了感冒药，感冒会不会好？和以前我吃过感冒药，后来感冒好了没有？这两个问题的答案。反之则不然。仅仅知道我以前吃过感冒药，感冒好了，是无法确定要是当时没吃感冒药，感冒会不会好这样的问题的答案的。

现有的基于统计的机器学习方法缺乏反事实这一层级的信息，因而无法进行反事实层面的推理，无论是总结过去的经验，还是预测当前行动的结果，都缺乏理据。这是现有机器学习方法理论上的缺陷。#p#分页标题#e#

意图和ETT

那么，该如何改进现有的机器学习方法呢？

回顾一下表示反事实的条件概率：

P(y_x|x', y')#p#分页标题#e#

从表面上看，x'和y'地位是平等的，都代表实际发生的、可以直接从数据中观察到的事件。因此相对而言，似乎不需要我们重点关注。但实际上，x'和y'的情况是不一样的。x'代表的是行动，或者说选择，也就是说，实际选择了行动x'，而不是x。这个选择，往往隐含着关于行动主体的一些信息。这些信息，有时和结果间存在因果关系。

比如，如果我们想分析参加某英语培训和英语成绩提升之间的关系，那么最简单直接的办法，就是统计参加培训的学生和没参加培训的学生的成绩提升（或下降）分值的平均值。从直觉上说，如果我们只统计十几个学生，那可能因为样本偏差而导致不准确的结果。反之，如果我们统计大量的学生，那样本偏差的影响就越小，结果也越精确。这就是所谓大数据的威力。

然而，如果我们从反事实的角度去看，那我们就会发现，上面统计方法可能存在再怎么增加样本也没法避免的偏差。参加培训的学生，事实上选择了参加培训，而不是不参加培训，这一选择本身就可能隐含了某些信息。比如，相比那些选择不参加培训的学生，这些学生可能学习英语的意愿更强，积极性更高。也就是说，即使这些学生当初选择不参加培训，英语成绩也会提升。#p#分页标题#e#

从统计的角度来说，这个参加培训的选择隐含了一个未观察到的混杂因子（confounder）。假设选择参加培训的学生学习英语意愿更强，积极性更高，那么这一点对参加培训和成绩提升都有影响。也就是说，学习英语意愿更强、积极性更高的学生更容易选择参加培训，同时英语成绩更容易提升（即使当初没有参加培训）。

因此，反事实条件概率中的x'，包含了关于行动主体的重要信息，也就是行动主体的意图、动机、反应模式和其他未观察到的特质。

如果我们用X表示行动（反事实中的x或x'），Y代表结果（反事实中的y或y'），那么我们就可以用下式来表示X和Y之间的因果推断（用E表示）：#p#分页标题#e#

E(Y_x|X=x')

将x和x'交换一下，就是Pearl提出的ETT（Effect of Treatment on the Treated，参与治疗的病人的治疗效果）：

E(Y_x'|X=x)

其中，X=x表示实际的行动（选择）。如前所述，Y_x'表示了反事实，X=x表示了意图、动机、反应模式和其他未观察到的特质。#p#分页标题#e#

从名字就可以看出，这一理论在推断治疗方案疗效方面很有用。实际上，ETT确实在医学和经济学方面的研究中得到了广泛应用。

Pearl等人尝试在机器学习中应用了ETT。基本思路如下：

代理决定采取行动x，模型记录了代理的选择（意图）。

#p#分页标题#e#

代理停顿，进行一个随机的试验（试验一个随机选择的行动，并评估结果）。

基于上一步尝试的结果，选择一个ETT最优的行动，这一行动和第一步决定采取的行动（意图）不一定一样。

反复进行后，得到了一个意图和行动可能不一致的数据库。基于这个数据库，可以选择在任一时刻对当前意图而言最大化期望回报的行动。这一方法利用了意图这一有用的信息，Pearl将其称为意图特定优化（intent-specific optimization）。

意图特定优化提供了从试验中提取反事实信息的机制，从而提升了机器学习模型的表现。Pearl比较了代理直接按意图行动所得的结果和经过意图特定优化再行动的结果，表明意图特定优化提升了代理的表现。#p#分页标题#e#

因果推断

反事实和意图特定优化只是Pearl数十年来一直致力于研究的因果推断理论的一部分，Pearl将其称为反事实算法，作为因果推断系统的第3根支柱。Pearl的因果推断理论共有7大支柱：

有意义而紧凑的因果假设表示（graphical表示）#p#分页标题#e#

混杂因子控制（back-door、front-door、do-calculus）

反事实算法（本文重点介绍的内容）

媒介分析（反事实的graphical表示）

学习迁移、外部验证、取样偏差（do-calculus、selection diagrams）

数据缺失（graphical标准）

因果发现（寻找和数据兼容的模型，并紧凑地表示它们）

Pearl同时开发了#p#分页标题#e#结构化因果模型（Structural Causal Model, SCM），一个形式化地描述因果推断的框架。

Pearl认为，因果推断理论的7大支柱，可以解决现有机器学习方法无法解决的问题，也就是突破现有机器学习的理论限制，SCM能表示现有机器学习模型难以表示的因果推断。而现在的数据科学，只是统计学，称不上科学；现在的机器学习，只是曲线拟合练习，永远不可能实现强人工智能。