Chaos速递：结合观察和干预数据的复杂系统控制优化

原创集智编辑部 2025-04-05 19:20 北京

如何在少量在线干预下，结合丰富的观测数据实现高效控制？

摘要

复杂系统以其众多实体间错综复杂的相互作用为特征，涌现出的行为在数据驱动的建模与控制中具有极其重要的意义，尤其是在观测数据丰富，但干预成本高昂的情况下。传统方法依赖于精确的动态模型或者大量的干预数据，但这在实际应用中并不现实。为了解决这一问题，我们考虑了一个特定的复杂系统控制问题：在拥有大量自然演化观测数据的情况下，如何通过在一些可干预节点上进行少量在线交互来控制复杂系统。我们引入了一个两阶段模型预测复杂系统控制框架，包括一个离线预训练阶段，利用丰富的观测数据捕捉自发演化动态，以及一个在线微调阶段，使用模型预测控制的变体来实施干预行动。针对复杂系统中状态-行动空间的高维特性，我们提出了一种新颖的方法，采用动作扩展图神经网络（action-extended graph neural networks）来建模复杂系统的马尔可夫决策过程，并设计了一个分层的行动空间来学习干预行动。该方法在三个复杂系统控制环境（Boids、Kuramoto和易感-感染-易感（Susceptible-Infectious-Susceptible，SIS）元种群模型）中表现良好。与基线算法相比，它具有更快的收敛速度、更强的泛化能力和更低的干预成本。这项工作为控制具有高维状态-行动空间和有限干预数据的复杂系统提供了宝贵的见解，为现实世界的挑战带来了有前景的应用。

研究领域：复杂系统控制，图神经网络，模型预测控制，分层动作空间

论文题目：Model predictive complex system control from observational and interventional data
发表时间：2024年9月19日
论文地址：https://doi.org/10.1063/5.0195208
期刊名称：Chaos

复杂系统（如交通网络、鸟群运动、流行病传播）由大量相互作用的主体构成，其涌现行为难以通过单一组件的特性预测。传统控制方法依赖精确的动力学模型或海量干预数据，但在实际场景中，系统的高维状态空间和有限的干预资源往往成为瓶颈。例如，城市交通信号灯调控需平衡实时车流观测与信号调整成本，而传统强化学习算法（如PPO）因需频繁试错干预，难以直接应用。如何在少量在线干预下，结合丰富的观测数据实现高效控制？北京师范大学系统科学学院张江老师团队在Chaos发表的论文提出了一种创新的两阶段框架——模型预测复杂系统控制（Model Predictive Complex System Control，MPCSC），为解决这一难题提供了新思路。该文也收入在Chaos的数据驱动的复杂系统建模特刊（https://pubs.aip.org/cha/collection/13407/Data-Driven-Models-and-Analysis-of-Complex-Systems）。

论文一作北师大系统科学学院在读博士牟牧云也在集智俱乐部读书会上对这篇文章有具体的分享和解读，欢迎大家加入读书会一起交流。

两阶段框架：离线学习，在线干预微调

研究关注的特定复杂系统控制问题，其特征是具有大量的观测数据和有限的在线干预数据，而且具有时空马尔可夫特性，即任何给定节点的状态仅依赖于前一步中自身和它邻居的状态。充分利用数据特征，MPCSC框架设计了“观测-干预”协同学习的两个步骤：

离线预训练阶段：使用大量的观测轨迹对动力学转换模型进行预训练，这些轨迹反映了动态复杂系统在没有干预作用的情况下的自发演化。为所有干预行动使用占位符，动力学转换模型兼容后续干预场景的数据，其中干预操作设置为0。

在线微调阶段：利用预训练的动力学转换模型，与环境进行交互以实现控制目标，借助模型预测控制（MPC）选择干预动作。具体而言，为交叉熵方法（CEM）规划方法设计了一个分层动作空间，以促进动作学习。在干预阶段收集的数据都会扩充训练数据集，定期使用这个扩充后的数据集更新动力学转换模型。

图 1. MPCSC架构。左侧是离线观察阶段和在线干预训练阶段，这两个阶段的数据输入到动作扩展的GNN中学习图动力学。右侧展示的是使用分层动作空间CEM的模型预测控制方法。

图神经网络：捕捉复杂系统的时空不变性

图神经网络可以有效地利用这种马尔科夫的时空机制不变性来表示节点的状态。在离线和在线两个阶段，研究都使用共享动作扩展的图神经网络（GNN）来模拟复杂系统的动力学。加入干预作用的GNN能够在适应在线干预的同时捕捉复杂系统的自发演化动态。MPCSC的GNN有如下两大特点：

聚合邻居信息：采用动态图注意力变体模型 GATv2，动态加权邻居节点的影响，与其他GNN算法（如GCN）相比，有更强的表示能力。

融合干预动作：将干预信号与节点状态拼接，输入多层感知机（MLP）预测下一时刻状态（图2）。未干预节点则使用占位符动作，确保模型兼容混合数据。

为了更好地捕获模型的不确定性，研究采用了类似于PETS中使用的集成学习方法。预测损失函数使用的是预测与真实数据之间的均方误差（MSE），参数通过基于MSE的反向传播进行更新。

图 2. 动作扩展的GNN。节点S_i聚合邻居状态信息S_j,S_k，结合干预动作a_i，通过MLP确定其下一时刻状态。

分层动作空间：优化干预控制

基于复杂系统的学习图动力学，MPCSC框架采用交叉熵方法（CEM），即模型预测控制（MPC）的一种变体，来生成在复杂系统中执行的分层干预动作。分层动作空间被分为三步：

确定干预数量（How Many）：从概率分布中采样需干预的节点数，避免全节点操作的资源浪费。

选择干预位置（Where）：在可干预节点集中无放回抽样已确定干预数量的节点，锁定干预的目标节点。

生成干预值（What）：对每个选定节点，从高斯分布中采样具体动作相应的值，通过交叉熵方法（CEM）迭代优化分布参数。

通过在学习好的图动力学中对每个动作序列进行评估，获得它们的累积奖励，选择累积奖励最高的前k个序列作为精英组。然后，使用精英组通过近似极大似然估计更新概率分布参数。最后，从时刻t的动作概率分布中采样一个动作，并在环境中执行后系统过渡到下一个状态。

多场景验证：从鸟群、同步到流行病防控

为了验证所提框架的有效性，研究选取了三个不同领域的复杂系统动力学模型，分别是关注网络同步现象的Kuramoto模型，建模集群行为的Boids模型，以及用于生物学和疾病传播模拟的SIS元种群模型。

Boids鸟群模型：通过干预3只“领航鸟”的飞行方向，使群体对齐速度向量的速度提升2倍。

Kuramoto振子网络：在50个异构振子中，仅干预30%的节点即可实现全局同步，较PETS算法收敛步数缩短40%。

SIS流行病传播：在20个城市构成的接触网络中，分层动作策略显著降低模型预测误差，且噪声环境下鲁棒性更强。

实验证明，MPCSC在干预数据稀缺时，通过融合大量观测数据，其离线预训练模型较“零观测”基线在测试损失上降低达70%，且网络规模越大优势越显著。通过少量干预数据实现高效控制，同时显著降低干预成本。

图 3. 不同算法的对比实验：(a)和(b)分别描述了Kuramoto和Boids环境下整个轨迹内顺序参数和同步指标的变化情况；(c)分别描述了SIS元种群环境下完整轨迹中易感种群的比例。

图 4.(a) - (c)表示Kuramoto、Boids和SIS元种群环境中的返回的事件。每个子图说明的是，在不同数量的观测数据下，算法在一个事件中的表现如何随着在线交互干预数据步骤增加而变化。(d) - (f)分别表示三种环境下的测试损失，表示模型应用于各测试数据集时的预测误差。

学术启示：数据协同与结构先验的融合

MPCSC的成功揭示了复杂系统控制的两大原则：观测与干预的互补性，自然演化数据蕴含系统内在动力学，而干预数据揭示外部控制响应，二者结合可突破“因果推断鸿沟”。图结构先验的嵌入，GNN对交互网络的显式建模，较传统MLP更适配复杂系统的空间依赖性，尤其在节点属性异构时泛化能力显著提升。未来，如何结合网络结构推断（如未知的路网连接）与在线自适应探索，将是该框架迈向现实应用的关键。此项研究为智慧城市、群体机器人等场景提供了极具潜力的控制范式。

彭晨 | 编译

复杂系统自动建模读书会第二季

“复杂世界，简单规则”。

集智俱乐部联合复旦大学智能复杂体系实验室青年研究员朱群喜、浙江大学百人计划研究员李樵风、清华大学电子工程系数据科学与智能实验室博士后研究员丁璟韬、美国东北大学物理系Albert-László Barabási指导的博士后高婷婷、北京大学博雅博士后曹文祺、复旦大学数学科学学院应用数学方向博士研究生赵伯林、北京师范大学系统科学学院博士研究生牟牧云，共同发起「复杂系统自动建模」读书会第二季。

读书会将于9月5日起每周四晚上20:00-22:00进行，探讨四个核心模块：数据驱动的复杂系统建模、复杂网络结构推断、具有可解释性的复杂系统推断（动力学+网络结构）、应用-超材料设计和城市系统，通过重点讨论75篇经典、前沿的重要文献，从黑盒（数据驱动）到白盒（可解释性），逐步捕捉系统的“本质”规律，帮助大家更好的认识、理解、预测、控制、设计复杂系统，为相关领域的研究和应用提供洞见。欢迎感兴趣的朋友报名参与！

详情请见：

复杂系统自动建模读书会：从数据驱动到可解释性，探索系统内在规律｜内附75篇领域必读文献

集智科学研究中心

集智科学研究中心是门头沟民政局批准成立、门头沟科信局主管的民办非企业，致力于营造跨学科探索小生境，催化复杂性科学新理论。集智研究中心长期关注复杂科学中的核心问题，如涌现、因果、自指、意识、生命起源等等，并充分结合人工智能机器学习技术尝试解决这些问题。目前已有15篇文章发表于国际期刊，其中包括一篇因果涌现的综述和一篇生命起源的综述。这里的文章大部分产生于集智社区读书会。

部分研究成果报道：

Nat.Commun.前沿：变分自回归网络求解非平衡态统计力学和动力学相变

如何让机器识别涌现？基于数据驱动的多尺度因果涌现框架

合成人造生命的理论视角：从生命起源中学习

复杂系统的逆向工程——通过时间序列重构复杂网络和动力学

集智科学研究中心重磅综述：复杂系统中的因果和涌现

“涌现”发现之旅：人工智能观察者与涌现的量化｜集智科学研究中心NSR最新成果