本章内容包括:
- 因果人工智能的定义及其优势将因果性引入机器学习模型因果性在机器学习模型中的简单示例
订阅制流媒体平台如Netflix,始终致力于优化各种绩效指标,其中之一是用户流失率(churn rate),即订阅用户流失的比例。假设你是Netflix的机器学习工程师或数据科学家,任务是寻找减少用户流失的方法。针对该任务,你可能会提出哪些因果性问题(需要因果思维的问题)?
- 因果发现(Causal discovery)
根据谁流失、谁未流失的详细数据,你能否分析这些数据以找出导致流失的原因?因果发现旨在探究“什么导致了什么”。平均处理效应估计(Average Treatment Effects,ATE)
假设向用户推荐内容的算法是导致流失的原因之一;更优的算法可能减少流失,但减少多少?量化某个原因平均影响结果的任务即为ATE估计。例如,将部分用户暴露于新算法,可以测量其相较于基线算法对流失率的影响。
深入一点讲,《办公室》(The Office,美国版)是Netflix上最受欢迎的剧集之一。后来Netflix得知NBC环球计划停止授权该剧在美国Netflix平台播放,将独家授权给竞争对手Peacock。鉴于该剧受欢迎程度,流失率必然受影响,但影响有多大呢?
- 条件平均处理效应估计(Conditional Average Treatment Effects,CATE)
《办公室》下架对不同订阅者群体的影响不同,那些群体是如何划分的?看过该剧是一种划分标准,但还有其他因素(人口统计、观看过的其他内容等)。CATE估计即量化特定人群中原因对结果的影响程度。实际上,可能存在多个子群体,每个群体内部的ATE不同。CATE任务之一是找到这些兴趣分明的群体。
假设你有可靠数据表明部分用户因《办公室》下架退出Netflix,转而订阅Peacock继续观看。而推荐算法未能向这些用户推荐类似的替代剧集,如《公园与游憩》(Parks and Recreation)。这引发了另一类问题:
- 反事实推理与归因(Counterfactual reasoning and attribution)
如果算法当时将《公园与游憩》更突出地展示在这些用户的首页,他们是否还会继续留在Netflix?这些“反事实”问题(即与事实相反的假设)对于归因分析至关重要,用于确定结果的根本原因及相应的功过。
Netflix曾与《办公室》主演Steve Carell及编剧导演Greg Daniels合作,打造Netflix原创剧《太空军》(Space Force)。该剧于《办公室》转至Peacock前数月上线。假设这是Netflix为留住《办公室》粉丝而制作的内容。制作此类剧集涉及的决策包括:
- 因果决策理论(Causal decision theory)
哪些演员、导演、编剧能吸引《办公室》粉丝继续订阅?哪些主题和内容最有效?因果机器学习(Causal machine learning)
如何利用生成式AI(如大语言模型)创作剧本和试播集,以优化降低《办公室》粉丝流失的目标?
因果推断即将问题拆解为上述具体的因果性查询,再利用数据回答这些查询。因果AI则致力于构建能够自动化此类分析的算法。本书将深入探讨这两个问题领域。
1.1 什么是因果人工智能?
要理解因果人工智能(Causal AI),我们首先从因果关系和因果推断的基本概念开始,逐步深入。随后,我们将回顾因果AI能够解决的各种问题。
因果推理是人类理解、解释和决策世界的重要组成部分。每当我们思考原因(“为什么会发生这种事?”)或结果(“如果我这么做,会发生什么?”)时,我们就在进行因果推理。
在统计学和机器学习中,我们利用数据为因果推理提供统计上的严谨支持。但尽管数据背后存在因果关系,仅凭统计相关性不足以从数据中推断因果。为此,我们必须借助因果推断。
统计(非因果)推断依赖统计假设。这一点即使在深度学习中也成立,所谓“归纳偏差”(inductive bias)即指此类假设。类似地,因果推断依赖因果假设;因果推断指一系列用因果假设约束统计分析的理论与实用方法。
因果AI指的是对因果推断的自动化。我们可以利用机器学习算法,这些算法已发展出强有力的方法来自动化统计分析,并能够处理大量不同模态的数据。
AI的目标是自动化那些迄今仍需人类智慧才能解决的推理任务。人类高度依赖因果推理来理解世界,虽然我们在因果推理上优于统计推理,但认知偏差仍使我们的因果推理极易出错。提升回答因果问题的能力是数千年来哲学家、数百年来科学家以及数十年来统计学家的共同努力成果。如今,统计与计算技术的融合已将焦点从理论讨论转向可用数据训练、并部署于软件的算法。学习如何构建因果AI正是一个激动人心的时代。
支撑因果AI的关键定义
- 推断(Inference):基于观察和数据得出结论假设(Assumptions):指导推断的约束条件归纳偏差(Inductive biases):假设的另一种说法,常指隐含于机器学习算法选择中的假设统计模型(Statistical model):利用统计假设分析数据的框架数据科学(Data science):利用统计模型及其他算法和技术,从结构化和非结构化数据中提取洞察与知识的跨学科领域因果推断(Causal inference):利用因果假设指导结论的技术因果模型(Causal model):基于数据生成的因果假设建立的统计模型因果数据科学(Causal data science):运用因果模型提取因果洞察的数据科学因果人工智能(Causal AI):使用因果模型自动化因果推断任务的算法
1.2 本书对因果推断的视角
本书的目标是融合两个强大领域:因果性与人工智能。完成本书学习后,您将掌握以下技能:
- 设计具备因果能力的AI系统——利用AI的强大功能,同时增加因果推理层面。使用机器学习框架进行因果推断——借助PyTorch及其他Python库,将因果建模无缝集成到项目中。构建自动化因果决策工具——实现因果决策算法,包括因果强化学习算法。
历史上,因果性与AI源自不同研究领域,应用于不同问题,培养了拥有不同技能的专家,出版了语言风格各异的书籍,使用了不同抽象层次的库。本书适合希望将这两个领域整合为一套全面技能的人士。
市面上有许多关于因果推断的书籍,包括专注于Python中因果推断的书籍。以下小节将介绍本书独特之处。
1.2.1 聚焦因果AI
本书专注于因果AI。我们不仅讨论因果推断对AI的相关性,及机器学习如何扩展因果推断,还重点讲解实现方法。具体来说,我们将把因果模型与概率机器学习中的传统模型及训练流程结合起来。
1.2.2 关注科技、零售与商业领域
实用的因果推断方法多发展于经济计量学、公共卫生、社会科学等难以开展随机实验的领域,因此大多数书籍的案例多来自这些领域。相比之下,本书大量采用科技、零售和商业领域的案例。
1.2.3 平行世界反事实与超越因果效应的其他查询
许多人提到“因果推断”时,首先想到的是估计因果效应,即平均处理效应(ATE)和条件平均处理效应(CATE)。这些固然重要,但还有其他类型的因果查询,本书也予以充分关注。
例如,本书深入探讨了平行世界反事实理论。该理论中,当某个因果事件与其结果发生时,我们设想一个平行宇宙,其中因果事件不同。举例来说,假设你问:“我为了钱结婚,现在很难过。如果我为了爱情结婚,会不会更幸福?”通过平行世界方法,你可以将自己为了钱结婚并感到难过的经历作为输入,借助基于因果模型的概率模拟,推断在那个为了爱情结婚的平行宇宙中你的幸福感。此类推理对决策尤为有用,比如帮助你下一次选择更合适的伴侣。
希望这个关于爱情与遗憾的例子能说明“如果当初怎样”的思考对人类认知的基础性(第8和9章还将见到更多应用实例)。因此,学习如何构建具备同样能力的AI十分有意义。尽管如此,一些反事实推断难以或无法验证(你无法证明如果你为爱结婚会更幸福)。大多数因果推断书籍只聚焦于那些可用数据和实验验证的狭窄反事实,忽略了许多有趣、符合认知科学且实用的反事实推理用例。本书则重视这些用例。
1.2.4 推断商品化的假设
许多因果推断书籍深入讲解各种因果效应估计器的统计推断原理。然而,过去十年深度学习框架发展的一个重要趋势是推断的商品化。即像PyTorch这样的库抽象掉了估计和推断中的复杂环节——只要你能用可微分损失函数定义估计/推断问题,PyTorch会处理剩余部分。推断的商品化让用户能专注于构建更细致、更强大的模型,如能表达数据生成过程因果结构的模型。
本书重点是利用推断框架,让你掌握模型技术的通用视角。一旦找到适合自己领域的建模方法,你可以借助其他资源深入学习任何感兴趣的统计算法。
1.2.5 用代码拆解理论
本书的一大亮点是其处理因果推断高级理论的方式。许多入门书籍避开诸如识别理论(identification)、do-演算(do-calculus)和因果层级定理(causal hierarchy theorem)等难点主题。但如果你想构建具备因果能力的AI算法,就必须对这些概念有直观理解。
本书通过依赖实现了这些基本抽象和算法的Python库,使这些复杂主题变得易于理解。我们将通过代码操作这些原语,培养对高级内容的直觉。
1.3 因果性在现代AI工作流中的作用
致力于构建未来具备因果能力的AI系统价值巨大,但本书涉及的内容同样影响当前常见的应用场景。本节将回顾因果性如何提升这些应用。
1.3.1 更优的数据科学
大型科技公司和技术驱动的零售企业已认识到因果推断的重要性,并为此类人才提供高薪。这是因为数据科学的核心——从数据中提取可执行洞察——本质上是因果的。
当数据科学家研究电商网站某特征与销量的相关性时,关注的是该特征是否因果驱动销量。因果推断可以通过多种方式解答这一问题。首先,它能帮助设计实验,量化特征对销量的因果效应,特别是在无法进行完美随机实验的情况下。其次,如果实验不可行,数据科学家可利用过去的观察数据和相关实验数据,推断若执行该实验可能产生的因果效应。最后,即使完全自由执行实验,因果推断也能辅助选择最优实验方案和关键变量,减少浪费和无效实验的机会成本。
1.3.2 更准确的归因、信用分配与根因分析
因果推断还支持归因分析。营销中的“归因难题”或许可用广告先驱约翰·瓦纳梅克(John Wanamaker)的一句话概括:
“我花在广告上的一半钱都浪费了;问题是我不知道是哪一半。”
换言之,难以判断具体哪个广告、促销或行动导致某客户行为、销售数字或关键业务结果。即便在数据更丰富细致的网络营销时代,归因依然困难。例如,用户点击广告后,是单次广告促使点击,还是本来就会点击?或许是多渠道不断提示的累计效应。因果建模通过形式化因果逻辑回答“为什么”问题,如“为什么该用户会点击?”从而解决归因难题。
归因在其他领域亦称为“信用分配”或“根因分析”,核心含义相同:理解特定事件结果发生的原因。我们通常知道可能的原因,但想了解某一原因在特定案例中的责任程度。
1.3.3 更稳健、可分解且可解释的模型
对依赖机器学习构建软件的组织而言,融入因果建模能提升流程和产品质量。因果性特别增加了机器学习模型的稳健性、可分解性和可解释性。
更稳健的机器学习
机器学习模型缺乏稳健性通常源于训练环境与部署环境差异导致模型失效。因果性可通过以下方式改善稳健性:
- 过拟合:当学习算法过度依赖训练数据中的虚假统计模式时发生。因果方法引导模型学习根植于因果关系的统计模式。欠定性(Underspecification):存在多种等效配置模型在测试数据表现相同,但在部署环境表现不同。欠定性的一个表现是模型对随机种子等任意配置参数过度敏感。因果推断能判断某因果预测是否“已识别”(即非欠定),即在假设与数据条件下是否存在唯一解。数据漂移:随着时间推移,部署环境中的数据特征与训练数据特征“漂移”或不同。因果建模通过捕捉数据背后的因果不变性来应对这一点。例如,若模型用高海拔城市数据训练预测平均温度,若成功拟合海拔与温度的物理因果关系,则应能在低海拔城市中同样良好运行。
这正是领先科技公司应用因果机器学习技术的原因——能使其服务更稳健。也因此,知名深度学习研究者积极探索深度学习与因果推理的结合。
更具可分解性的机器学习
因果模型可以分解为多个组成部分,具体来说是效应及其直接原因的元组,这将在第3章中正式定义。为说明这一点,我们来看一个简单的机器学习问题:预测看到数字广告的个人是否会进行购买。
我们可以将广告曝光的各种特征(例如广告被观看的次数、观看时长、广告类别、观看时间等)作为特征向量,使用神经网络预测购买行为,如图1.1所示。由于模型中隐藏层的权重相互依赖,整个模型无法被简化为更小的独立部分。
另一方面,如果我们从因果视角来看这个问题,可能会推断广告曝光推动了用户参与度,而用户参与度又影响个人是否进行购买。以参与度指标作为另一个特征向量,我们可以训练图1.2所示的模型。该模型符合该领域的因果结构(即广告曝光导致参与,参与导致购买)。因此,它可以分解为两个组成部分:{广告曝光,参与} 和 {参与,购买}。
这种可分解性带来了多个好处:
- 模型的各个组件可以独立测试和验证。模型组件可以分开执行,更高效地利用现代云计算基础设施,并支持边缘计算。当有新增训练数据时,只需重新训练与该数据相关的组件。旧模型的组件可以复用于针对新问题的新模型中。由于组件可单独优化,对次优模型配置和超参数设置的敏感性降低。因果模型的组件对应你所建模领域中的概念,从而带来了下一个好处——可解释性。
更具可解释性的机器学习
许多机器学习算法,尤其是深度学习算法,常被视为“黑箱”,即其内部运作难以理解,模型如何根据输入生成输出的过程也难以解释。
相比之下,因果模型极具可解释性,因为它们直接编码了建模领域中易于理解的因果关系。实际上,因果性是解释的核心;解释一个事件意味着描述该事件的原因以及这些原因如何导致事件发生。因果模型用你所建模领域的语言(语义解释)提供解释,而非用模型架构术语(如“节点”和“激活”的句法解释)。
以图1.1和图1.2中的例子为例。在图1.1中,只有输入特征和输出能以领域语言解释,隐藏层内部运作则不可解释。因此,对于特定广告曝光,很难说明模型如何得出具体购买结果。相较之下,图1.2的示例明确提供了“参与度”变量,解释了广告曝光如何转化为购买结果。
广告曝光与参与度之间,以及购买与参与度之间的连接仍是“黑箱”,但如果需要,我们可以将这些黑箱中的额外变量明确化,只要确保这样做符合我们对问题因果结构的假设。
1.3.4 更公平的AI
假设鲍勃申请商业贷款。一个机器学习算法预测鲍勃是不良贷款候选人,因此贷款被拒。鲍勃是男性,他获得了银行的贷款数据,数据显示男性贷款申请获批的概率较低。这个结果是否属于“不公平”?
如果算法之所以作出这个预测,是因为鲍勃是男性,我们可能会认为这是“不公平”的。一个“公平”的预测应该基于与鲍勃偿还贷款能力相关的因素,比如他的信用记录、经营行业或可用抵押品。鲍勃的困境正是我们希望机器学习具备可解释性的一个原因:这样我们才能分析鲍勃申请中哪些因素导致算法做出该决策。
假设训练数据来自贷款官员的历史决策,而其中一些人存在性别偏见,导致对男性不利。例如,他们可能看过研究,显示男性在经济困难时期更可能违约。基于这些研究,他们决定如果申请人是男性,就从评分中扣分。
此外,假设在数据收集期间,银行通过社交媒体宣传贷款项目。查看广告活动结果发现,响应广告的男性平均资质低于点击广告的女性。这种差异可能是因为广告更精准地针对女性,或者因为在线广告竞价时,面对资质较低的男性受众的平均竞价较低。图1.3展示了可能影响贷款审批过程的各种因素,并区分了公平与不公平的原因。图中因素以有向无环图(DAG)形式呈现,这是一种流行且有效的因果关系表示方法。本书将贯穿使用DAG作为因果推理的核心工具。
因此,数据中存在两个可能导致对男性产生统计偏差的来源。一个偏差来源是在线广告吸引了平均资质较低的男性,导致男性的拒贷率较高。另一个统计偏差来源则是贷款官员的偏见。这两个偏差来源中,一个可以说是“公平”的(很难指责银行对数字广告算法的定向行为),而另一个则是“不公平”的(我们可以指责银行存在性别歧视的贷款政策)。但当我们仅仅观察训练数据而没有因果背景时,看到的只是针对男性的统计偏差。学习算法在对鲍勃做出决策时,复制了这种偏差。
解决该问题的一个简单做法是从训练数据中删除性别标签。但即使那些带有性别偏见的贷款官员看不到明确的性别信息,他们也可以从申请中的某些元素推断出性别,比如姓名。贷款官员以统计相关性的形式将这些性别代理变量与贷款结果联系起来。机器学习算法会发现这一统计模式并利用它进行预测。因此,即使性别并非预测的直接输入,算法也可能对两个偿还风险相同但性别不同的个体给出不同的预测。部署此算法实际上会放大贷款官员偏见带来的伤害。
基于这些原因,我们可以理解对机器学习算法广泛应用的诸多担忧是有道理的。若不加以纠正,这些算法可能会放大我们社会产生的、数据中体现的不公平结果,从而对社会造成负面影响。
因果分析在解析这类算法公平性问题中发挥着重要作用。在本例中,我们可以用因果分析将统计偏差划分为由于性别歧视导致的“不公平”偏差和由于数字广告服务定向方式等外部因素导致的偏差。最终,我们可以利用因果建模构建一个只考虑与个人还贷能力因果相关变量的模型。
需要强调的是,单靠因果推断不足以解决算法公平性问题。因果推断能帮助我们区分统计偏差中的公平与不公平部分,但这还依赖于所有相关方对概念和结果的定义达成共识,而这往往很难实现。举例来说,假设社交媒体广告活动因为向男性投放广告的成本较低而更多地面向男性。因此,广告竞价在男性受众中出价较低而赢得广告展示,导致更多男性看到广告,尽管其中许多男性并不适合贷款项目。这一过程是否公平?结果是否公平?在性别间实现平衡结果与对广告主的定价公平之间存在怎样的权衡?某些广告主是否应因激励平衡结果的定价机制支付更高费用?因果分析无法直接解决这些问题,但能够帮助从技术层面深入理解它们。
1.4 因果性如何推动下一波AI浪潮
将因果逻辑融入机器学习正引领AI领域的新进展。本书重点介绍了因果AI的三个热门领域:表示学习、强化学习和大型语言模型。这些因果AI的发展趋势令人联想到深度学习的早期阶段。当深度学习浪潮兴起时,已有神经网络经验的人率先获得了该领域的新机遇,而机遇本身又带来更多机遇。下一波AI浪潮仍在成形,但显然会从根本上融合因果性的某种表示。本书的目标是帮助你乘上这股浪潮。
1.4.1 因果表示学习
许多最先进的深度学习方法试图学习被建模对象的几何表示,但它们在学习因果意义上的表示方面仍然存在困难。例如,考虑一段视频,内容是一个孩子手里牵着一个充满氦气的气球。如果我们有该图像的对应向量表示,且该向量表示具有因果意义,那么对该向量进行操作移除孩子,再将修改后的向量转换为新视频,结果应表现为气球向上飘起。因果表示学习是深度表示学习中的一个有前景的新兴领域,本书在不同章节中提供了基于深度学习架构构建因果模型的多个示例,介绍了这一令人兴奋的因果AI新兴领域的基本理念。
1.4.2 因果强化学习
在经典强化学习中,学习智能体通过大量数据学习,类似巴甫洛夫的狗;它们学习与良好结果正相关、与不良结果负相关的行为。然而,众所周知,相关性不等于因果性。因果强化学习能揭示那些导致更高回报的行动与与高回报相关性最强的行动之间的区别。此外,它利用反事实推理解决归因问题(即正确将奖励归因于具体行动),比如“如果智能体采用另一种策略,将获得多少奖励?”第12章专门讲述因果强化学习及其他因果决策领域。
1.4.3 大型语言模型与基础模型
大型语言模型(LLMs),如OpenAI的GPT、谷歌的Gemini和Meta的Llama,是拥有数十亿参数的深度神经语言模型,训练于海量文本及其他数据上。这些模型能生成高度连贯的自然语言、代码及其他模态内容。它们是基础模型,为构建更具领域专用性的机器学习模型和产品提供基础。这类产品如微软365 Copilot,已产生巨大商业影响。
新兴的研究和产品开发方向包括探索LLMs回答因果问题和进行因果分析的能力;另一方向则是利用因果方法设计和训练具备优化因果能力的新型LLMs。第13章将探讨LLMs与因果性的交叉领域。
1.5 围绕机器学习主题的因果性入门介绍
既然您已经了解了因果推断能够改善机器学习的多种方式,接下来我们来看看将因果性融入AI模型的过程。为此,我们将使用一个在机器学习中常用的流行基准数据集——MNIST手写数字图像数据集,每张图像都标注了图中所表示的真实数字。图1.4展示了MNIST数据集中多个数字的示例。
MNIST 本质上是机器学习领域的“Hello World”。它主要用于测试不同的机器学习算法,并比较它们的相对优劣。基本的预测任务是将每幅图像的像素矩阵作为输入,输出正确的图像标签。让我们开始把因果思维融入一个应用于 MNIST 图像的概率机器学习模型的过程。
1.5.1 查询、概率与统计
首先,我们来看一个不包含因果推断的基础流程。机器学习可以利用概率来分析感兴趣的量。为此,概率机器学习模型学习系统中所有变量的概率表示。我们可以通过三步过程,用概率机器学习模型进行预测和决策:
- 提出问题 — 你想回答什么问题?写出数学表达 — 给定证据或数据,什么概率(或与概率相关的量)能回答该问题?进行统计推断 — 哪种统计分析能给出(或估计)该量?
这三步有更正式的术语(查询、估计目标和估计器),但我们暂时不使用专业术语。举个简单的统计例子,步骤1可能是:“波士顿人的平均身高是多少?”步骤2则是决定计算所有波士顿人身高的均值(概率学上的“期望值”)来回答问题。步骤3可能是随机抽取100名波士顿人,计算他们的平均身高;统计定理保证该样本均值是总体均值的良好估计。
让我们将这一工作流程扩展至MNIST图像建模。
第一步:提出问题
假设我们正在看图1.5中的一张MNIST图像,该图像可能是数字“4”也可能是“9”。在第一步,我们明确问题,例如:“给定这张图像,它代表的数字是什么?”
第二步:写出数学表达
在第二步中,我们希望找到一个概率量来回答第一步提出的问题,前提是给定证据或数据。换句话说,我们想用概率数学符号写出一个表达式,用以回答步骤1中的问题。
以图1.5的例子为例,“证据”或“数据”就是图像。该图像是数字4还是数字9?令变量 III 表示图像,变量 DDD 表示数字。在概率符号中,我们可以写出“在给定图像 I=iI = \mathbf{i}I=i 的情况下数字是4的概率”为 P(D=4∣I=i)P(D=4 \mid I=\mathbf{i})P(D=4∣I=i),这里的 I=iI=\mathbf{i}I=i 是指图像被表示为某个向量 i\mathbf{i}i。
我们可以将该概率与数字是9的概率 P(D=9∣I=i)P(D=9 \mid I=\mathbf{i})P(D=9∣I=i) 进行比较,选择概率较高的数字作为预测结果。推广到所有十个数字,第二步中我们想要的数学量如图1.6所示。
用通俗的话说,这就是“在给定图像的情况下,使得数字 DDD 等于某个值 ddd 的概率最大的那个 ddd”,其中 ddd 是十个数字(0 到 9)之一。
第三步:进行统计推断
第三步使用统计分析来对第二步中确定的概率量进行估计。实现这一点的方法有很多。例如,我们可以训练一个深度神经网络,将图像作为输入,预测对应的数字作为输出;神经网络可以为每个数字 ddd 分配一个概率 P(D=d)P(D=d)P(D=d)。
1.5.2 因果性与MNIST
那么,因果性如何体现在前述三步分析中呢?Yann LeCun 是图灵奖获得者(计算机科学界的诺贝尔奖),因其在深度学习领域的贡献而获奖,同时是Meta AI研究主管。他还是MNIST数据集的三位创造者之一。他在个人网站(yann.lecun.com/exdb/mnist/…)中讨论了MNIST数据的因果背景:
MNIST数据库是基于美国国家标准与技术研究院(NIST)的特别数据库3号(SD-3)和特别数据库1号(SD-1)构建的,这两个数据库包含手写数字的二值图像。NIST最初指定SD-3为训练集,SD-1为测试集。但SD-3数据质量更高、更易识别,原因在于SD-3的样本采集自人口普查局员工,而SD-1采集自高中生。要从学习实验中得出合理结论,结果应对训练集和测试集的选择独立,即需覆盖完整样本集。因此,有必要通过混合NIST的两个数据集来构建新的数据库。
换言之,作者混合这两个数据集,是因为他们认为若仅用高中生绘制的数字训练模型,模型在处理公务员绘制的数字时表现会较差。然而,在现实场景中,我们期望模型具备鲁棒性,能在一种场景下学习,在另一种不同的场景下做出准确预测。比如,垃圾邮件过滤器应能在垃圾邮件发送者从“尼日利亚王子”变为“不丹公主”时依然有效;自动驾驶汽车应能在停车标志被涂鸦时仍然停下。现实中很难像洗牌那样任意调整数据。
因果建模利用有关数字绘制背后因果机制的知识,帮助模型在训练数据中区分高中生与公务员,推广到测试数据中的高中生。图1.7展示了描述该系统的因果有向无环图(DAG)。
这个特定的有向无环图(DAG)假设书写者决定了数字的笔画粗细和曲线程度,而高中生的书写风格往往与公务员不同。图中还假定书写者的类别会影响他们所写的数字。比如,公务员可能写更多的数字1、0和5,因为这些数字在普查工作中出现频率较高;而高中生更频繁地写其他数字,因为他们在数学课上做更多长除法(这与主题模型中“主题”影响文档中词频的思想类似)。最后,DAG假设年龄是书写者类型和图像的共同原因——只有在一定年龄以下才能是高中生,而超过某年龄才可能是普查员。
因果建模方法会利用这些因果知识来训练预测模型,使其能够从高中生的训练数据推断到公务员的测试数据。这样的模型对书写者类型和其他变量分布与训练数据不同的新情形具有更好的泛化能力。
1.5.3 因果查询、概率与统计
本章开头我提到了我们可以提出的多种因果问题,如因果发现、因果效应量化和因果决策。我们可以用因果变体的三步分析方法来回答这些问题(提出问题、写出数学表达、进行统计推断):
- 提出因果问题 — 你想回答的因果问题是什么?写出因果数学表达 — 给定证据或数据,哪个概率(或期望值)能回答因果问题?进行统计推断 — 哪种统计分析能给出(或“估计”)该因果量?
注意,第三步与之前的三步分析相同,因果细节体现在第一步和第二步。
第一步:提出因果问题
以下是我们针对因果MNIST模型可能提出的一些因果问题示例:
- “书写者类型(高中生 vs. 公务员)对一幅数字4且笔画粗细为3级的图像外观有多大影响?”(条件平均处理效应估计将在第11章讨论)假设笔画粗细是图像的原因,我们可能问:“如果数字2的笔画曲线度达到最大,它看起来会怎样?”(这是干预预测,第7章讨论)“给定一幅图像,如果笔画曲线度更粗,图像会有什么不同?”(参见反事实推理,第8和9章讨论)“笔画曲线度应是多少,才能获得美学理想的图像?”(因果决策,第12章讨论)
我们以第一个问题中的条件平均处理效应(CATE)为例。CATE估计是应用于普通表格数据的常见因果推断问题,但在AI计算机视觉领域中较少见到应用。
第二步:写出因果数学表达
因果推断理论告诉我们如何用数学形式来表达因果问题。利用特殊的因果符号,我们可以将条件平均处理效应(CATE)查询形式化为如下数学表达:
其中 E(⋅)是期望算子。我们将在下一章详细介绍期望的概念,但目前可以将其理解为对多张图像中像素值的平均。
前文中使用的下标是一种称为“反事实符号”(counterfactual notation)的特殊表示方法,用以表示干预(intervention)。实验中的随机分配是一种现实世界中的干预,但现实中有许多实验无法进行。例如,不可能随机将参与者分配为高中生或人口普查局公务员。然而,我们仍希望了解书写者类型对图像的因果影响,因此依赖因果模型及其表示干预的能力。
为说明这一点,图1.8可视化了条件平均处理效应(CATE)的样貌。挑战在于如何导出图1.8右侧的差异图像。因果推断理论帮助我们解决量化书写者类型对图像影响时,可能存在的年龄相关“混淆”偏差。例如,do-演算(第10章)是一组基于图的规则,它允许我们从该有向无环图(DAG)出发,算法地推导出如下方程:
该等式左侧定义了第二步中条件平均处理效应(CATE)定义所用的期望——它是一个理论构造,用于捕捉假设条件“如果将书写者类型设为‘w’”。而右侧则具有可操作性;它完全由我们可以利用机器学习方法估计的项组成,这些项基于标注了书写者年龄的NIST图像数据的假设版本。
第三步:进行统计推断
第三步进行统计估计,我们有多种方法来估计该等式右侧的量。例如,我们可以使用卷积神经网络来建模 E(I∣W=w,A=a,D=d,T=t)E(I \mid W=w, A=a, D=d, T=t)E(I∣W=w,A=a,D=d,T=t),并构建联合分布 P(A,D,T)P(A, D, T)P(A,D,T) 的概率模型。统计建模方法的选择涉及常见的权衡,如易用性、偏差与方差、对大规模数据的扩展性以及并行化能力。
其他书籍会详细介绍第三步偏好的统计方法。本人持坚定观点,认为应依赖统计建模和机器学习框架中“推断商品化”的趋势来处理第三步,而应将精力集中于前两步的能力提升:确定正确的问题,以及用数学形式表达可能的因果。
正如本节所示,我们的因果AI学习之旅基于三步流程,因果思维的精髓主要体现在前两步。第一步引导我们提出正确的因果问题,第二步揭示这些问题背后的数学原理。第三步则利用我们在传统统计预测和推断中熟悉的模式。
采用这一结构化方法,接下来的章节中,我们将从纯预测的机器学习模型(如你熟悉的MNIST深度潜变量模型)逐步过渡到因果机器学习模型,这些模型能为因果问题提供更深入的见解和答案。首先,我们将回顾基础的数学与机器学习理论;接着,在本书第二部分,我们将深入探讨如何提出正确的问题,并用数学语言表达(步骤1和2)。第三步则将利用PyTorch及其他先进库的强大功能,将因果概念与前沿统计学习算法相结合。
总结
- 因果人工智能旨在用因果逻辑增强统计学习和概率推理。因果推断帮助数据科学家从观测数据(世界上绝大多数数据)和实验数据中提取更多因果洞察。当数据科学家无法进行实验时,因果模型可基于观测数据模拟实验。他们利用这些模拟进行因果推断,如估计因果效应,甚至优先安排现实中值得开展的实验。因果推断还通过算法反事实推理和归因,帮助数据科学家提升组织中的决策水平。因果推断使机器学习模型更稳健、可分解且更易解释。因果分析有助于正式分析预测算法的公平性,并通过将普通统计偏差拆解为因果来源,构建更公平的算法。推断商品化是机器学习中的趋势,指诸如PyTorch这类通用建模框架不断自动化统计学习与概率推断的细节,降低了模型开发者对因果推断统计细节的专业依赖,使他们能更多聚焦于将领域知识转化为更优的因果模型。因果推断任务类型包括因果发现、干预预测、因果效应估计、反事实推理、解释和归因。我们构建和使用概率机器学习模型的方法,可以扩展到利用PyTorch等概率机器学习工具实现的因果生成模型。