原创 集智与上智院 2025-05-09 18:24 上海
将数学、物理的基本原理应用于AI模型架构
导语
上海科学智能研究院、集智科学研究中心和阿里云联合发布了《AI × Science十大前沿观察》,梳理出35个研究前沿,来推动科学发展的黄金时代到来。本篇为前沿观察8,扫描下方二维码,可获得完整版下载地址、快速链接论文原文。
扫描二维码 下载完整报告
科学启发的 AI 新架构
背景介绍
随着大型语言模型的快速发展,人工智能技术在展现巨大潜力的同时,也暴露出一系列问题。一方面,以算力积累为核心的AI发展模式正面临能源消耗和硬件架构可扩展性等制约因素;另一方面,AI架构的可解释性问题成为AI发展方向和关键应用场景中的主要障碍。人类科学家积累的大量领域知识,尤其是数学和物理的基本原理,已被应用于AI模型架构中,这不仅增强了AI模型的可解释性,也提升了其性能。
基于神经网络的传统AI模型往往依赖于大量数据,缺乏对数据背后科学规律的理解,导致在物理一致性要求高的科学领域表现不佳。在AI架构改进方面,将神经网络置于数学或物理框架内,并运用前沿的数学物理工具来理解其工作机理,是至关重要的。
这一过程常涉及非凸优化、表征能力和泛化能力等前沿理论研究,从而推动新模型的提出。例如,ResNet内部的多个残差网络模块的工作机制可以解释为常微分方程的离散数值求解器,这一理念启发了ODE-Net的发明。此外,通过在损失函数中引入正则项,可以强化模型的解耦性、单调性、非负性和稀疏性等已知的先验属性。还有一些工作致力于改造神经网络本身,如KAN模型,它在激活层引入了参数化的多项式函数,替代了传统的Sigmoid和ReLU等固定激活函数,以更高效地拟合具有多项式形式的未知目标函数。
传统的数字神经网络依赖于电子计算,这涉及到大量的算术运算和数据传输,这些都是能耗密集型的。因此颠覆传统的神经网络架构是突破传统人工智能系统能效瓶颈的重要方法。
神经科学的研究成果为AI新架构的启发提供了重要源泉。类脑计算(Brain-inspired Computing),或称神经形态计算(Neuromorphic Computing),是指模仿生物神经系统的计算范式,旨在为深入探索大脑功能及推进人工智能系统的发展提供创新途径。在该领域的初期研究中,主要目标是在硬件层面上复现或验证生物学发现,并利用神经科学的研究成果指导相关系统的设计和开发。近期,随着大数据、人工智能以及物联网等技术的迅猛发展,对计算能力提出了更高的要求。在此背景下,科研人员开始探索脑启发式计算作为一种可能的解决方案,以期构建更为高效的计算系统。以脉冲神经网络(SNNs)为代表的类脑计算模仿了生物大脑的工作方式,信息通过脉冲传递,这种事件驱动的计算方式使得SNNs在处理稀疏数据时极为高效,显示出在能效上的潜在显著优势。
机械神经网络(Mechanincal Neural Networks, MNN),以及储备池计算(Reservoir Computing)都强调系统的非线性动力学特征,利用复杂的动态响应来处理信息,并且都试图通过独特的网络连接和动态来实现计算。机械神经网络采用全新的物理架构作为信息处理器,在提升AI系统的能效比方面具有巨大潜力。储备池计算结合了循环神经网络和前馈神经网络,其中所谓的“储备池计算”模拟了循环神经网络的工作机理,但其无需训练的特性,使得利用特别设计的物理系统实现储备池计算成为可能,从而大大降低系统工作能耗。
下面介绍的四个有代表性的工作:
Komogorov Arnold Networks(KAN)作为一种深度学习架构,受数学理论启发,能模拟复杂函数,提升模型的泛化能力和可理解性。
脉冲神经网络(SNN)通过模仿生物大脑的神经系统工作机理,有效降低了计算能耗,并适合于实时处理任务。
储备池计算(RC)则利用非线性动力系统对输入数据进行高维映射,特别适合处理时间序列数据。RC的固定的随机非线性动力系统非常适合于特殊设计的高能效硬件架构,这使得RC在实现高效信息处理方面具有巨大潜力。
机械神经网络(MNN)是一种模仿生物神经系统结构和功能的物理系统,通过特定材料和几何结构设计,能够像神经网络一样处理和传递信息,具有自适应和响应外部刺激的能力,主要应用于柔性机器人、智能材料和仿生工程领域。
傅里叶神经算子(FNO)开创了一种全新的科学AI范式,通过在频域空间学习算子映射,实现了分辨率无关的快速仿真,特别适合处理由偏微分方程描述的物理系统。
研究进展
进展目录
Komogorov Arnold Networks (KAN)
脉冲神经网络
储备池计算
机械神经网络
傅里叶神经算子
Komogorov Arnold Networks (KAN)
推荐理由:KAN是一种受数学理论启发的全新深度学习架构,可以替代一般的前馈神经网络,具有表示能力更强、更容易进行复杂函数拟合、更适合科学计算等优点;由集智社区成员、集智科学家刘子鸣为首的麻省理工学院科研团队开发。
Komogorov Arnold Networks (KAN) [1][2]的核心思路源自一个数学理论,即科尔莫戈罗夫-阿诺德(Kolmogorov-Arnold)定理。该定理表明,任何复杂的多变量函数都可以通过一系列简单函数的组合来表示。这意味着,在理论上,即使是高度复杂的关系,我们也可以将其拆解成一组简单函数叠加的形式,从而进行建模和预测。
KAN将上述定理描述的单层网络叠加为多层的深度网络。与传统多层前馈神经网络(MLP)相比,KAN的核心创新在于将MLP中相对固定的激活函数替换为更加丰富的数学函数集。这种设计使其能够以更简洁的网络结构建模复杂函数关系,显著提升了模型表达能力。这不仅能够提高模型的区间外插值能力,在特定问题上增强了分布外泛化能力,同时还增加了模型的易理解性,更适于在科学计算中应用。
传统多层感知机(MLP)结构和KAN结构的对比 [1]
KAN 的架构通过一个称为“隐藏函数”的层将输入数据转化,然后通过多个简单函数的组合输出结果。这种方式使得它比传统神经网络更具解释性和可控性,因为我们能够清晰地看到每个简单函数在整体架构中的作用,而不需要依赖大量的参数训练。
脉冲神经网络
推荐理由:相比当前主流AI的技术实现,人脑在高效、低功耗和实时处理能力等方面都表现出无以伦比的优势。脉冲神经网络(Spiking Neural Networks,SNN)是一种模仿生物大脑神经系统结构和功能的计算方法,有望解除AI在耗能、实时高效信息处理等方面的发展制约。
脉冲神经网络被称为第三代人工神经网络[3],模仿了生物神经元之间的脉冲发放方式。相比传统的人工神经网络(ANN),SNN通过离散的脉冲(Spike)进行信息传递,从而有效降低计算能耗,能更高效地模拟生物神经系统的时间和空间特性。SNN通常采用事件驱动机制,仅在有事件触发时激活神经元,可有效降低能耗。此外,SNN还可模拟突触可塑性,通过模拟大脑的学习机制,使得网络能够在动态环境中实现实时学习。
从人工神经网络(ANN)转换到 脉冲神经网络(SNN)[3]
相比传统的人工神经网络,采用脉冲(Spike)传递信息,事件驱动的SNN在能效比和计算资源消耗方面具有明显优势。SNN能够在数据发生变化时才进行计算,这种计算模式对于实时处理和响应是非常有价值的。SNN可以与专门为SNN设计的神经形态硬件(如IBM的TrueNorth、Intel的Loihi)更紧密地集成,实现更高的能效和并行处理能力。此外,SNN模仿生物大脑的工作方式,使得它们在需要与生物系统接口的应用中(如脑机接口)更为有效。
储备池计算
推荐理由:储备池计算(Reservoir Computing, RC)是一种可以替代传统循环神经网络(RNN)的新型AI模型,更擅长于从时间序列中学习复杂的动力学。相比较普通的RNN,储备池计算具有训练效率更高、更容易用低成本硬件实现等特点。
储备池计算的核心思想是通过非线性动力系统(即“储备池”)对输入数据进行高维非线性映射,使得数据的特征更容易被线性分离。它是一种特殊的RNN形式,通常使用结构固定的随机连接网络作为“储备池”(Reservoir),储备池后面连接有可训练的输出层,从而将内部状态线性映射回低维的输出变量。由于储备池网络结构和参数均固定,因此无需对其训练,而只需要训练输出层即可。这不仅可以大大提高储备池模型的训练效率,更为研发相应的专有硬件提供了便利。储备池计算通过输入驱动储备池内部的神经活动,并利用输出的线性或非线性组合映射到低维的输出变量来完成任务[4][5]。因为储备池本身就是一个高维的动力系统,因此它更适合拟合时间序列中的复杂高维动力学。
前馈神经网络,循环神经网络,以及储备池计算的关系[10]
储备池计算的发展分为三个阶段:1))2001年提出原型:回声状态网络(Echo State Network, ESO),前十年主要研究全数字算法;2)随后十年探索数模混合实现,包括不同架构和模拟域的物理节点;3)最近几年转向全模拟系统,使用模拟型忆阻器阵列降低功耗和成本[6]。
储备池计算的发展脉络与机遇 [6]
储备池计算主要用于处理时间序列数据的任务,如语音识别、金融预测、机器人控制等。其结构简单、训练效率高,尤其适合实现低成本的嵌入式系统。目前,物理储备池计算正快速发展,其原理和可行性已被验证,未来在多个方面有巨大潜力,性能和应用领域将进一步扩展。
机械神经网络
推荐理由:机械神经网络(Mechanical Neural Networks, MNN)能够在不依赖电子系统的情况下,通过材料本身的物理特性实现信息处理和智能响应,能够实现信息处理、自适应和智能响应,同时具有比传统电子神经网络更高的柔性、生物相容性和环境适应性。
机械神经网络是一种基于物理学原理的机器学习架构,通过节点之间的机械连接实现信息的处理和存储。其核心设计思路是将计算操作映射到物理行为上,以节点之间的弹簧连接为基础,将力与位移之间的响应关系模拟为神经元之间的激活与传播过程。节点的空间位置在施加外力时发生变化,通过物理连接进行信号传输,输出节点的位移代表网络的输出结果。这种机制与传统的计算机神经网络类似,但依赖于物理过程而非电子计算。
MNNs 的主要架构由节点(机械神经元)、弹簧(连接权重)和输入输出节点(功能类似于感知器的输入和输出层)组成。施加到输入节点的力被视为输入信号,节点在力的作用下发生位移,表示激活程度。这些力通过弹簧传递到其他节点,决定了输出节点的最终位移。输入节点的力和输出节点的位移都是矢量,使得 MNNs 能够在高维空间中并行处理复杂任务。
使用Polyjet橡胶类材料Agilus30的3D打印机械神经网络[11]
与传统神经网络不同,MNNs 具有多种独特优势:
高能效与节能性: 由于计算过程基于物理运动,MNNs 的计算能耗极低,尤其适合在能源受限的环境中运行。
结构简单,硬件实现成本低: MNNs 依赖于简单的机械结构,减少了对复杂电路和集成芯片的需求。
鲁棒性与自适应性: 由于力和位移的物理特性,MNNs 在电磁环境复杂或噪声干扰强的环境中具有天然优势。
可扩展性与模块化: 不同结构和节点布局的 MNNs 可以通过调整弹簧常数和连接拓扑来适配多种任务需求。
这些特点使 MNNs 成为未来物理神经网络硬件平台的潜在核心技术,有望在智能材料、机器人和自适应设备等应用领域中发挥重要作用。
一篇最新的工作[11]提出了一种基于伴随变量法(Adjoint Variable Method)的“原位反向传播”(In-situ Backpropagation)方法,开创性地解决了 MNNs 的梯度计算与参数更新难题。传统的神经网络训练依赖于计算机上的梯度下降算法,而物理系统中的参数更新一直受到精度和操作复杂度的限制。该研究提出了一种能够在物理环境中直接计算梯度的方法,大大提升了 MNNs 的训练效率和可扩展性。研究者成功解决了仿真与实际物理结构之间的误差问题,为未来的机械神经网络研究提供了可靠的技术路径。
傅里叶神经算子
推荐理由: 傅里叶神经算子(Fourier neural operator, FNO)[12]开创了一种全新的科学AI范式,通过在频域空间学习算子映射,实现了分辨率无关的快速仿真,特别适合处理由偏微分方程描述的物理系统。本方法由集智社区成员、加州理工学院博士生李宗宜等人提出。
傅里叶神经算子 (FNO) 的核心创新在于它彻底改变了神经网络处理物理问题的方式。这是一种新的深度学习架构,能够学习无限维函数空间中的映射。如下图所示:
傅立叶神经算子的网络架构 | 来源:Li Z, Kovachki N B, Azizzadenesheli K, et al. Fourier Neural Operator for Parametric Partial Differential Equations. International Conference on Learning Representations.
FNO的处理流程主要分为三步:1.通过线性层进行升维;2.应用四层积分算子和激活函数;3.再将输出特征投影回目标维度。其中傅立叶层对特征进行傅里叶变换,然后对低频部分进行线性变换再应用反傅立叶变换;而对高频部分,则进行局部线性变换,并将高频信息和低频信息相加输入激活函数,再进行反傅里叶变换。这种设计既保持了物理量的守恒性,又能显著提升计算效率。
FNO 已经被应用于许多重要的科学领域,其中在天气预报领域,基于FNO提出的FourCastNet[13]使用Transformer模型,搭建了人工智能和物理学之间的桥梁,并取得了突破性的成果。它比传统的数值天气预报(NWP)模型快约45000倍。在训练时,与NWP模型中的标杆——欧洲综合预报系统相比,FourCastNet预测天气所需的能耗减少了12000倍。更令人兴奋的是其在碳捕集与封存 (CCS) 领域的应用 - Nested FNO[14]将复杂的地质流动预测加速了近70万倍,为大规模CCS技术的工业部署扫清了计算瓶颈。
这些成功案例表明,FNO不仅是一个理论突破,更是一个能够解决实际工程问题的强大工具,也在流体动力学、材料科学、地球科学、生物医学工程等领域发挥了重要的作用[15]。
挑战与展望
KAN可以被归类为物理引导的机器学习(Physics-Informed Machine Learning, PIML)。作为正在发展的新型AI架构,在气候模拟、材料科学和生物医学中具有广阔前景[7]。PIML的主要优势在于可以减少对大量数据的依赖,尤其适用于数据稀缺或昂贵的领域。PIML面临的挑战主要在于如何有效嵌入物理约束,提升复杂系统中的计算效率和模型泛化能力。此外,PIML模型的有效性和精度往往依赖于物理模型的准确性,因此在物理模型不够完善时可能影响结果的可靠性。
PIML主要聚焦于AI算法层面的优化,而类脑计算则通过硬件架构革新(如神经形态芯片)与软件栈重构(涵盖操作系统、算法设计等),构建起完全不同于传统体系的计算范式。类脑计算以大脑范式为指导,复制生物神经系统的特征或功能,用于探索神经科学和加速智能任务。此外,融合类脑计算和传统计算机固有的计算范式,可以高效、灵活地处理更广泛的通用任务。
类脑计算的挑战在于实现计算的通用性,有三种可能的实现策略:应用级模式通用化、硬件级结构通用化和软件级系统通用化。类似SNN等技术最初是为高效运行特定算法而设计的,但越来越多的系统被设计为可同时支持ANN和SNN计算,扩大了系统可支持的应用范围,从而为最终达到通用目的提供了可能[8]。
储备池计算(RC)展现出利用新兴电子技术实现高效信息处理的潜力,其未来发展将拓展至电子、光学及机械系统的多物理实现,从而构建能效突破传统架构的新型计算平台。这类系统可实现低功耗和实时数据处理,尤其适合神经形态计算。RC面临的挑战主要包括系统的稳定性、适应性以及如何提高其在复杂任务下的泛化能力和计算精度等问题。
关于机械神经网络(MNN)的最新研究[11]为其开发和部署铺平了道路,提出了机械网络在智能材料、软体机器人和自适应机械设备中的广泛应用前景。研究表明,未来可通过改进弹簧常数的动态调整机制进一步扩展该技术,设计具有高度自动化和自主学习能力的材料与设备。此外,通过研究非线性材料的响应,探索更复杂的数据集处理和决策任务,将成为未来的研究重点。这些创新为将机器学习与物理材料科学融合开辟了新的研究方向,或将在新一代节能计算硬件和智能系统的开发中发挥关键作用。
参考文献
[1] Liu, Ziming, et al. "Kan: Kolmogorov-arnold networks." arXiv preprint arXiv:2404.19756 (2024).
https://arxiv.org/abs/2404.19756
推荐理由:这篇论文提出了多层感知器(MLPs)的替代方案KAN,通过在边缘(而非节点)上设置可学习的激活函数,并用样条参数化的单变量函数替换传统的线性权重,从而在准确性和可解释性方面超越MLPs。 |
[2] Liu, Ziming, et al. "Kan 2.0: Kolmogorov-arnold networks meet science." arXiv preprint arXiv:2408.10205 (2024).
https://arxiv.org/abs/2408.10205
推荐理由:这篇论文提出了KAN 2.0,在KAN的基础上引入了乘法节点、kanpiler编译器和树形Transformer架构,增强了模型的表达力、实用性和可解释性,并拓展了其在科学发现领域的应用范围。 |
[3] Hu, Yangfan, et al. "Toward Large-scale Spiking Neural Networks: A Comprehensive Survey and Future Directions." arXiv preprint arXiv:2409.02111 (2024).
https://arxiv.org/abs/2409.02111
推荐理由:这篇论文提供了对大规模尖峰神经网络(SNN)的全面综述,并探讨了未来的发展方向。 |
[4] Jaeger, H. (2001). “The “echo state” approach to analysing and training recurrent neural networks.” Technical report, GMD German National Research Institute for Computer Science.
https://www.ai.rug.nl/minds/uploads/EchoStatesTechRep.pdf
推荐理由:这篇论文介绍了“回声状态”方法,这是一种分析和训练递归神经网络(RNNs)的技术,它通过保持网络的状态来捕捉时间动态,并将学习任务简化为输出权重的调整。 |
[5] Maass, W., Natschlager, T., & Markram, H. (2002). “Real-time computing without stable states: A new framework for neural computation based on perturbations.” Neural Computation.
https://ieeexplore.ieee.org/abstract/document/6789852
推荐理由:这篇论文提出了一种新的神经计算框架,即“实时计算无需稳定状态”,它基于高维动态系统的原理和统计学习理论,可以在通用的递归电路上实现实时处理时间变化的输入,而不需要稳定的内部状态。 |
[6] Liang, Xiangpeng, et al. "Physical reservoir computing with emerging electronics." Nature Electronics 7.3 (2024): 193-206.
https://www.nature.com/articles/s41928-024-01133-z
推荐理由:这篇论文系统梳理了基于新型电子器件的物理储备池计算的起源、发展与未来展望,并重点分析了储备池架构、物理节点、输出层等构筑一个完整物理储备池系统的关键技术。 |
[7] Karniadakis, G. E., et al. “Physics-informed Machine Learning.” Nature Reviews Physics, 2021.
https://www.osti.gov/pages/servlets/purl/2282016
推荐理由:这篇论文系统地调查并总结了物理信息机器学习领域,探讨了如何将物理先验知识(如PDEs/ODEs/SDEs、对称性约束和直观物理)嵌入到机器学习模型的不同部分(数据、架构、损失函数、优化方法和推理算法),并详细呈现了现有方法、挑战和未来方向。 |
[8] Zhang, Weihao, et al. "The development of general-purpose brain-inspired computing." Nature Electronics (2024): 1-12.
https://www.nature.com/articles/s41928-024-01277-y
推荐理由:这篇论文探讨了通用脑启发计算的发展,涉及神经形态电子系统、深度神经网络的大脑相似性、视觉传感器技术、大规模神经模拟以及相关硬件和软件工具的进步。 |
[9] Fan, Feng-Lei, et al. "On interpretability of artificial neural networks: A survey." IEEE Transactions on Radiation and Plasma Medical Sciences 5.6 (2021): 741-760.
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9105427/
推荐理由:这篇论文是一项关于人工神经网络可解释性的综述研究,提出了一个全面的可解释性分类体系,系统回顾了提高神经网络可解释性的最新研究,讨论了可解释性在医学等领域的应用,并探讨了未来研究方向,如与模糊逻辑和脑科学的关联。 |
[10] Cucchi, Matteo, et al. "Hands-on reservoir computing: a tutorial for practical implementation." Neuromorphic Computing and Engineering 2.3 (2022): 032002.
https://iopscience.iop.org/article/10.1088/2634-4386/ac7db7/meta
推荐理由:本文旨在为材料科学、化学和电子学等领域的读者提供实施水库计算(RC)实验的概览。RC为利用材料系统的非线性行为和短期记忆设计新型计算范式提供了框架,避免了传统前馈神经网络在硬件上实现时的问题。本文强调了RC在硬件神经网络中的潜力、优势及实施障碍,并希望降低科学家利用非线性系统进行机器学习和人工智能任务的门槛。 |
[11] Li, Shuaifeng, and Xiaoming Mao. "Training all-mechanical neural networks for task learning through in situ backpropagation." arXiv preprint arXiv:2404.15471 (2024).
https://arxiv.org/abs/2404.15471
推荐理由:本文提出了一种全新的机械神经网络训练方法——原位反向传播,通过局部信息高效计算梯度,实现行为学习和机器学习任务。实验证明,该方法在回归和分类任务中达到高精度,展现了机械学习硬件的潜力。 |
[12] Li, Zongyi, et al. "Fourier Neural Operator for Parametric Partial Differential Equations." International Conference on Learning Representations, 2021.
https://arxiv.org/abs/2010.08895
该论文提出的傅里叶神经算子开创了频域学习的新范式,在科学计算领域产生了重要影响。 |
[13] Pathak, Jaideep, et al. "FourCastNet: A Global Data-driven High-resolution Weather Model Using Adaptive Fourier Neural Operators." Nature, vol. 614, no. 7947, 2023, pp. 474-481.
https://www.nature.com/articles/s41586-023-05847-6
该论文将傅里叶神经算子应用于全球天气预报,实现了显著的计算加速。 |
[14] Wen, Guannan, et al. "Real-time High-resolution CO2 Geological Storage Prediction Using Nested Fourier Neural Operators." Energy & Environmental Science, vol. 16, no. 4, 2023, pp. 1732-1741.
https://doi.org/10.1039/D2EE03266A
该工作将嵌套傅里叶神经算子应用于地质储存预测,显著提升了预测效率。 |
[15] Azizzadenesheli, Kamyar, et al. "Neural Operators for Accelerating Scientific Simulations and Design." Nature Reviews Physics, 2024, pp. 1-9.
https://www.nature.com/articles/s42254-024-00712-5
该综述全面总结了神经算子在科学仿真与设计中的应用进展。 |
出品:漆远、吴力波、张江
运营:孟晋宇、王婷
撰稿:张江、杨燕青、王婷、王朝会、十三维、周莉、梁金、袁冰、江千月、刘志毅
鸣谢(按姓氏拼音顺序,排名不分先后):
曹风雷 、陈小杨 、程远、杜沅岂 、段郁、方榯楷 、付彦伟、 高悦、黄柯鑫、李昊、刘圣超、谭伟敏、吴泰霖、吴艳玲、向红军、张骥、张艳、朱思语
AI+Science 读书会
详情请见:
人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动
推荐阅读
1. 《AI X Science十大前沿观察》发布:35个研究前沿,开启科学发现的黄金时代
2. 《AI×SCIENCE十大前沿观察》1:基于LLM的科学研究
3. 《AI×SCIENCE十大前沿观察》2:垂直领域科学大模型
4. 《AI×SCIENCE十大前沿观察》3:融入先验知识的AI模型
6. 《AI×SCIENCE十大前沿观察》5:复杂世界的多智能体建模
7. 《AI×SCIENCE十大前沿观察》6:AI 仿真与系统模拟
9. 探索者计划 | 集智俱乐部2025内容团队招募(全职&兼职)
10. 加入集智,玩转复杂,共创斑图!集智俱乐部线下志愿者招募
点击“阅读原文”,报名读书会