原创杨明哲 2025-03-12 20:27 上海

因果的多维宇宙：范畴论打开的认知新维度

导语

本文以范畴论的视角重新审视因果模型，探讨了如何将传统的有向无环图表示转化为弦图表示，并通过对称幺半范畴和有限随机范畴构建了严格的数学框架。这一视角不仅能统一处理经典和量子因果系统，还为解决多尺度因果模型的一致性问题提供了形式化工具，也为跨尺度因果推理奠定理论基础。

为了系统梳理因果涌现最新进展，北京师范大学系统科学学院教授、集智俱乐部创始人张江老师领衔发起「因果涌现第六季」读书会，组织对本话题感兴趣的朋友，深入研读相关文献，激发科研灵感。

读书会将从2025年3月16日开始，每周日早9:00-11:00，持续时间预计10周左右。每周进行线上会议，与主讲人等社区成员当面交流，之后可以获得视频回放持续学习。诚挚邀请领域内研究者、寻求跨领域融合的研究者加入，共同探讨。

研究领域：范畴论、因果模型、弦图、多尺度、Φ抽象、因果一致性

杨明哲 | 作者

建立因果模型在许多研究领域非常重要。本篇文章旨在以范畴论的视角来构建因果模型[1]，从而可基于此展开各种因果的定量研究，包括多尺度因果模型。

在我们的直觉中，探讨因果关系是问这样的一个问题：一个事件的发生是否和另外一些事件的发生有着系统性的关系。比如，血压的升高或降低是不是总和饮食习惯或是否吃药这些事件有关。这种把因果建立在事件关联上的观点最早可追溯至英国经验主义哲学家大卫·休谟。他认为，人们认知中的因果其实就是对总是一起出现的事件的习惯性联想。在这种以事件为中心（event-centered）的视角下，一个因果系统就是有着固定模式的事件的集合。

除此以外，另外一些哲学家提出，因果可以被理解成为一种过程（processes）或机制（mechanisms）。也就是说，因果是一个接收特定输入后产生一个输出的机制[2]。比如说，控制其他条件不变的情况下，饮食习惯（输入）以一种代谢过程（机制）产生了血压的结果（输出）。这种以机制为中心（process-centered）的视角，可以通过范畴论的语言得以规范化。这便是因果的机制理论（Process theory of causality）。这个理论最早由Jacobs提出[3]。

从有向无环图到弦图：两种因果表示的桥梁

为了量化因果，Pearl等人提出[4]，可以用有向无环图（directed acyclic graph，DAG）来表示因果模型，如下图所示。

其中，字母表示变量，箭头表示因果关系。而在范畴论当中，我们用弦图（string diagram）来表示因果模型。此时，机制用一个小矩形表示。比如，输入X₁,X₂输出Y₁,Y₂的机制如下图所表示：

弦图中，因果顺序默认是从下往上表示。如果有两个机制串联起来，那么可以如下表示：

两个不相干的机制并行存在，可以如下表示：

通过以上介绍，我们可以给出前文展示的DAG所对应的弦图了。不难看出，DAG中用点来表示变量，而在弦图中用线来表示。线和箭头在DAG中表示因果关系，在弦图中则用矩形表示。产生A的机制f_A用三角形表示，是因为A没有任何输入。所以当f_A被映射到一个有限随机范畴（FinStoch）里，代表的就是A的边缘概率分布（后文还有解释）。

两张图还有一个不同点，对于叉结构来说，弦图里会用一个小黑点来表示。比如，A同时因果影响B和C。这种小黑点被称为复制子（copier），其实就是把某一变量克隆出来一份。

为什么要强调复制子？这其实在经典因果关系中很正常：一个变量同时因果影响另外两个变量，等价于先把该变量复制出来一份，然后这两份相同的输入对应两个因果过程，其中一个过程产出变量B，而另一个过程产出变量C。所以，一因多果的叉结构总包含复制子这样的操作。但对于量子过程就不一样了。因为量子不可复制原理，我们没有办法对一个量子比特进行复制子的操作。所以我们需要一个标记提醒我们这里暗含着一个复制的操作。

弦图这个工具对应到范畴论的语言，描述的是对称幺半范畴（symmetric monoidal category）。不了解范畴论的读者可以把对称幺半范畴想象成用积木搭建起的世界，每块积木对应一个机制。两块积木可以左右拼接起来（机制并行存在），而且拼接的顺序可交换。另外，积木还可以上下串联起来，也就是机制之间的复合。而且复合和拼接的顺序可交换。这个性质的图形和公式描述如下：

给定一个DAG，记为G，那么它所对应的范畴可以用Syn_G来表示[3]。它不仅可以用来表示确定的因果关系，也可以表示包含随机性的因果关系。下图就是一个例子，它把前文中B←A→C更详细地展开了：

这里的F是一个从对称幺半范畴映射到有限随机范畴的函子，F:Syn_G→ FinStoch。有限随机范畴其实可以简单理解为是有限大小的概率转移矩阵（TPM）。我们熟悉的TPM是行归一化，[1]中则是把矩阵转置了一下，是列归一化。用我们熟悉的语言翻译一下函子F，它其实对应的是有向无环图G和概率空间P的二元组(G,P)。

现在我从左到右来解释每个模块的含义：F(f_A)表示A的边缘概率分布，这里有两个事件a₁,a₂，它们的概率分布满足归一化。然后，因为这是一个叉结构，所以有复制子操作，F(cp_A)。如果它是经典系统而非量子系统，那么复制子所对应的TPM每一列就一定是完全确定的分布。经过这个机制，便有了两份a₁,a₂，它们分别经过F(f_B),F(f_C)。这两个TPM便产出了变量B和C。这两个过程是并行发生的，可以拼接起来。

因果模型超越普通相关关系的地方便在于它引入了干预的操作[4]。比如在DAG里，干预对应图上的操作是把被干预变量所有输入的连边都擦除掉。那在弦图中怎么表示干预呢？如下图所示，

这便是干预了变量Y，擦除了原本所有变量X对Y影响的机制f。空心圆圈表示抛弃变量（discard）。用范畴论语言来说便是，cut_Y:Syn_G→Syn_G。

弦图看起来比较古怪，但其实它正好可以用来表示量子计算的过程[5]。在量子电路中，每一个量子比特对应一条线，每一次可逆计算（U_x）和观测（P_x）都对应一个方块。只不过通常量子电路图按操作顺序是从左向右排列，按照弦图则是从下往上。

马尔可夫条件：何时因果机制可分解？

通过上面的介绍，我们已经知道了如何用范畴论的弦图规范地表示因果模型。截至目前，我们使用的例子都是离散的因果模型，而且它们都满足马尔可夫条件。考虑一个机制，有一个输入和两个输出：

马尔可夫条件是说，给定输入X，两个输出彼此独立：。也就是说，这张图总和下面的图是等价的：

前文处理B←A→C时，我们就是这样表达的。可问题是，这种等价关系总成立吗？有不符合马尔可夫条件的因果模型吗？在完全确定的世界中我们很难想象这样的例子，而引入随机性之后，我们可以构建这样的例子。想象一个台球桌上还剩黑八和白球两个球，你想要通过击打白球来让黑八落入袋中，同时要避免白球落入袋里。可是，这两个球的位置使得当黑八能被击入袋中时，白球也一定会落入袋里。我们把你的击打动作看作是输入变量，黑八和白球是否落袋是两个输出变量。如果单看击打到黑八的结果，它是否落袋的概率为50%，完全随机。单看白球的结果也是如此。但如果把两个输出变量放一起来看，本来有4种结果，但一球落袋另一球不落袋的情况的概率是0，两球都落袋或都不落袋的概率分别是50%。这时，你没办法把一个机制分成两个独立的机制来看。Salmon[6]把这种情况称为交互分岔（interactive fork）：“每个过程的变化来自与其他变化的交互”。而满足马尔可夫条件的情况称为合取分岔（conjunctive fork）：“结果之间的相关性不是来自物理上的交互，而是来自特殊的背景条件”。

这里也体现出用范畴论视角重构因果模型的好处。在DAG中很难表示交互分岔，除非引入超边等高阶网络概念。

Φ抽象：连接不同尺度的因果模型

有时候，一个因果模型过于复杂，我们需要对其做粗粒化（coarse-graining）得到更加简洁的宏观因果模型。这里便有一个因果一致性的问题[7]：我们如何保证微观和宏观两个因果模型的描述是相匹配的？《因果一致性：因果与多尺度的碰撞》中曾简要介绍过因果一致性的相关研究。

我们再来回顾一下那个引发因果一致性问题的经典案例[7，8]。早期研究认为饮食通过总胆固醇（TC）影响心脏病（HD），但不同研究显示TC对HD的作用方向矛盾。后证实TC包含低密度脂蛋白（LDL，促进HD）和高密度脂蛋白（HDL，抑制HD），需区分两者才能明确因果效应。这反映了生物医学中的常见现象：看似单一的物质实为多成分混合体，各成分作用可能相反。这便是一种因果不一致的粗粒化情形。

在定性的层面上，我们如果想要让两个因果模型等价，要看三个方面：1.结构。如果有连边出现在了微观变量之间，那么宏观变量间对应的位置上也应该有相同方向的连边；2.概率。对于两个模型来说，分配下去的概率分布应该保持一致；3.干预：两个模型上的干预操作应该互相匹配。以前的研究只关注这里的第二个层面[7]，比如上面胆固醇的例子。接下来，我们来看范畴论的语言如何帮助我们规范粗粒化操作以满足这些条件。

根据前文的内容，我们可以给出这个例子的弦图表示[8]。对称幺半范畴的性质告诉我们，你可以把产生LDL和HDL的两个模块以及复制子（不要落下它）拼接成为一个模块。如前文所述，如果马尔可夫条件不满足，这个过程的逆过程不一定成立。

这样拼接好后，我们就得到了一个机制，输入饮食习惯（diet），输出TC。在下图[1]中我们可以看到更广泛的合并案例。其中虚线是微观上被粗粒化的模块或线条，虚线外的方框表示粗粒化后得到的新模块。

这样得到的新弦图和之前的弦图之间的映射是满足图同态（graph homomorphism）的。图同态便是说，原图中的某一个点确定唯一地映射到新图中的某一个点，同时原图中两个点之间是怎样的关系，在新图中也一定保持相同的关系不变（或者这两个点被合并成了一个点，这是被允许的）。如果一个映射是满足图同态的，那么它就满足了结构上的因果一致性。

进一步地，如果我们还要保证概率上的因果一致性，就要在下图中定义一种可交换性。图中有两个作用在因果模型上的函子F_G:Syn_G→FinStoch;F_H:Syn_H→FinStoch，以及满足图同态的函子Φ:Syn_G→Syn_H。如果这里存在一组同态α：F_G→ F_HΦ，满足无论从哪条路径走，最后得到的Y的边缘概率分布是一样的，我们就称这样的一组同态为自然转换（natural transformation）。换句话说，此时这些路径彼此是可交换的。

当同时有图同态和自然转换被满足时，我们就说此时F_H是F_G的Φ抽象（Φ-abstraction）。如果这里的Φ不仅同态，还同构（isomorphisms），也就是说，它是一个可逆的态射，那么我们就说F_H和F_G之间是Φ等价的。Φ等价是Φ抽象的一种特殊情况。

完全没有损失的可交换要求有时太过严苛，很多研究[9]便提出用KL散度的方法来度量它在多大程度上不满足可交换性。

除了考虑到结构和概率两个层面上的一致性，在[8]中，作者证明了，如果F_H是F_G的Φ抽象，那么在宏观模型上的任何一个干预，都可以在微观模型上找到一组干预与之相匹配，即干预后得到的输出变量概率分布相同。也就是说，Φ抽象自然保证了干预层面上的一致性。感兴趣的读者可阅读参考文献了解证明过程。

下面是综合呈现Φ抽象的案例图示，传统的DAG，到对称幺半范畴下的弦图，再到有限随机范畴，这里的每一个符号都在前文介绍过了。读者如果能读懂这张图，便把握了全文所有的要点。要注意的是，从X映射到U，虽然变量个数没变，但状态数变少了，这也是一种粗粒化。

总结与展望：范畴论视角的优势

本文介绍了范畴论视角下的因果模型，涉及对称幺半范畴和有限随机范畴两种范畴。这种范畴论视角率先由Jacobs等人[3]提出，后又有Otsuka等人[1，8]在此基础上提出Φ抽象，为多尺度因果模型研究打下了范畴论基础。

如果我们把因果模型看作是一种语言，弦图所展示的图结构便是这个语言的语法，具体的机制（转移概率矩阵）便是其中的语义。相比于传统的因果图表达方式，这种范畴论视角最大的好处便是把复制子、do干预这样的操作设定为一种语义的对象，也就是说，赋予它们所对应的概率转移矩阵。在之前的图结构中，干预由do算子描述，需要单独一套符号语言去描述什么是干预。而范畴论视角下，干预和一般的观测被统一起来。它们其实都是一种函子，是对称幺半范畴和有限随机范畴两个世界之间的桥梁。只不过观测函子让我们得到某种概率分布，而干预函子让我们得到另一个概率分布。这大大方便了我们在某些情况下从观测数据中计算得到干预分布。

在这个方向上还有很多工作等待进一步研究，比如如何将该框架拓展到连续系统上？当出现自环，使得一个因果模型不能被一个DAG所表示该怎么办？当范畴论的语言被广泛接受，相信因果科学领域在应用上会有更多有意思的成果涌现。

参考文献

[1]Otsuka, J. (2024). Process theory of causality: A category-theoretic perspective.

[2]Cartwright N (2007) Hunting Causes and Using Them. Cambridge University Press

[3]Jacobs B, Kissinger A, Zanasi F (2019) Causal inference by string diagram surgery. Foundations of software science and computation Structures. Springer International Publishing, pp 313–329

[4]Pearl J (2000) Causality: models, reasoning, and inference. Cambridge University Press

[5]Abramsky, S., & Coecke, B. (2007). A categorical semantics of quantum protocols (arXiv:quant-ph/0402130). arXiv.

[6]Salmon WC (1980) Causality: Production and Propagation. In: Proceedings of the Biennial Meeting of the Philosophy of Science Association, Vol. 1980(2):49-69

[7]Rubenstein PK, Weichwald S, Bongers S, Mooij JM, Janzing D, Grosse-Wentrup M, Schölkopf B (2017) Causal consistency of structural equation models. In: Proceedings of the 33rd Conference on Uncertainty in Artificial Intelligence

[8]Otsuka, J., & Saigo, H. (2022). On the Equivalence of Causal Models: A Category-Theoretic Approach. Proceedings of the First Conference on Causal Learning and Reasoning, 634–646.

[9]Rischel EF (2020) Category Theory of causal models. PhD thesis, University of Copenhagen

-活动推荐-

探秘可逆性视角下的因果涌现

因果涌现读书会第六季

在霓虹灯的闪烁、蚁群的精密协作、人类意识的诞生中，隐藏着微观与宏观之间深刻的因果关联——这些看似简单的个体行为，如何跨越尺度，涌现出令人惊叹的复杂现象？因果涌现理论为我们揭示了答案：复杂系统的宏观特征无法通过微观元素的简单叠加解释，而是源于多尺度动态交互中涌现的因果结构。从奇异值分解（SVD）驱动的动态可逆性分析，到因果抽象与信息分解的量化工具，研究者们正逐步构建起一套跨越数学、物理与信息科学的理论框架，试图解码复杂系统的“涌现密码”。

详情请见：因果涌现第六季——动力学、因果抽象与信息分解

范畴论第二季

范畴论是一个研究结构的理论，提供了一种系统、精确、抽象的跨领域科学方法论，可直接付诸于各领域考察的问题，寻求跨领域的解决之道。这种数学语言与复杂性科学有众多相似之处，加之其本身作为数学工具的严密性，后续可能能为解决复杂性科学问题提供一把钥匙。

为了让大家了解范畴论这样一门现代数学语言，克服传统学习范畴论抽象和对前置知识的障碍，集智学园特邀一位正在尝试教中学生范畴论的J-CAT猫圈老师开课，筹划了“集智范畴论入门系列课程”。第二季课程正式推出，在第一季习得的范畴论思维方式基础上，本季课程将站在新的起点上，更多关注范畴论内在的问题，而不用过于关注具体的问题背景。例如在范畴论中，可以直接抽象地讨论一个作为函子的箭头如何运动到另一个函子箭头，这样需要理解函子范畴和自然变换的概念。通过掌握这些越来越抽象的思维工具，学员将逐渐感受到范畴论的强大抽象简化能力，感受到为何不同领域的研究前沿不约而同地应用这些工具。

详情请点击：

人人可学的范畴论第一季——跨领域的科学方法论 | 精品入门系列课

人人可学的范畴论第二季——跨学科的科学方法论 | 精品入门系列课

推荐阅读

1. 范畴论基本概念：箭头的学问

2. 大模型的能力边界在哪里？来自范畴论视角的答案

3. 智能是什么？范畴论为通用人工智能提供普适框架

4. 张江：第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程

5. 解锁集智全站内容，开启新年学习计划

6. 加入集智，一起复杂！

点击“阅读原文”，报名课程

阅读原文

跳转微信打开

参考文献

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签