原创 赵思怡 2025-05-28 21:52 上海
导语
在人工智能飞速发展的背景下,支撑大语言模型(LLM)的核心技术——Transformer,以其强大的序列建模能力广受瞩目。然而,随着应用规模不断扩大,其日益增长的计算成本也正逐渐显现为关键瓶颈。近期一篇发表在 Nature Machine Intelligence 的综述指出:我们正迎来一场悄然的技术转变——循环神经网络(Recurrent Neural Networks, RNN)和状态空间建模(State Space Models, SSM)等经典方法正被重新审视,并与 Transformer 融合,推动更高效、可扩展的序列建模架构。这不仅关乎性能,更关乎未来人工智能系统的可持续发展。
关键词:循环神经网络(RNN)、Transformer、状态空间模型(SSM)、长序列建模、线性循环单元(LRUs)、自注意力机制、梯度消失、序列学习
赵思怡丨作者
论文题目:Back to recurrent processing at the crossroad of transformers and state-space models
发表时间:2025年5月15日
论文地址:https://doi.org/10.1038/s42256-025-01034-6
发表期刊:nature machine intelligence
开发能够处理和有效学习长序列数据的模型,一直是机器学习领域面临的一项长期挑战。Transformer 架构,尤其是大语言模型所展现出的强大能力,使得基于并行注意力机制的方法成为应对这一挑战的核心路径,也在一定程度上弱化了传统循环架构在序列建模方面的优势与价值。然而,自注意力机制带来的计算复杂度问题日益受到关注,近年来涌现出一类新型神经网络模型——深度状态空间模型((deep) State-Space Models, SSMs), 它们融合了 Transformer 与循环网络的优势,旨在兼顾效率与表达能力。与此同时,也逐渐被证明是时间序列函数逼近的有效工具,为序列数据的学习提供了新的理论视角与建模思路。本文综述了这些在“循环模型”统一框架下的最新进展,并探讨其在未来大规模生成模型架构发展中的潜在关键作用。
序列之争:
Transformer、RNN与SSM的融合新拐点
序列之争:
Transformer、RNN与SSM的融合新拐点
近年来,Transformer 以其并行注意力机制在自然语言处理、图像生成等任务中大放异彩,几乎取代了传统 RNN 成为主流。然而,随着对长序列处理的需求不断上升,Transformer 固有的O(L2)计算复杂度和显存瓶颈问题日益突出。与此同时,一批融合 Transformer 与循环机制的新一代架构陆续涌现,借助线性循环结构、状态更新函数和门控机制,在保持表达能力的同时显著降低计算开销,引发“循环复兴”浪潮。这不仅挑战了“注意力至上”的主流范式,也为模型在训练效率、推理速度与硬件友好性等方面提供了全新路径。
循环模型的核心演化:从梯度消失到门控记忆
循环模型的核心演化:从梯度消失到门控记忆
循环模型在状态随时间演化的过程中捕捉序列数据中的时序特征。传统的 Elman 网络通过状态随时间递推建模时序依赖,但在反向传播中极易遭遇梯度消失或爆炸问题。为解决这一问题,长短期记忆网络(LSTM)和门控循环单元(GRU)引入了遗忘门和输入门等机制,通过动态调节信息流有效增强了模型对长程依赖的建模能力。
为进一步提升稳定性,近年来不少工作尝试使用正交或单位矩阵约束权重,从而控制梯度范数,减缓数值不稳定性。尽管这可能会牺牲一部分模型表达力,但其在增强记忆保持能力上的表现令人瞩目。
线性注意力机制:
让Transformer回归“循环”本质
线性注意力机制:
让Transformer回归“循环”本质
Transformer 的自注意力机制需对所有 token 对进行相似性计算,但其计算复杂度随序列长度L呈平方增长O(L2),限制了其在长序列任务中的扩展性。为解决这一问题,线性 Transformer 重构了注意力核函数,使用非线性特征映射ϕ(⋅)将 query 和 key 映射至低维空间,使得注意力得分可以写作矩阵外积形式,从而将复杂度降至将 query 和 key 映射至低维空间,使得注意力得分可以写作矩阵外积形式,从而将复杂度降至O(L)。
公式如下:
这种形式将原本“全局比较”的注意力过程转化为状态递推过程,令 Transformer 层具备“近似循环”的特征。进一步优化如随机特征映射、门控机制(RetNet、GAU 等)等策略,在提升表达能力的同时,也增强了模型的局部选择性与长期记忆保持能力。例如,门控线性注意力进一步引入了与输入相关的衰减因子γ,以类比人类记忆的“遗忘机制”,增强对局部上下文的建模能力。
(该γ为文中多种门控或指数衰减形式的泛指,而非特定变量。)
这些方法在语言建模等任务中已逼近甚至接近传统 Transformer 的性能,同时大幅降低了内存占用和推理成本。
状态空间模型(SSM):
循环建模的连续化演化
状态空间模型(SSM):
循环建模的连续化演化
SSM 本质上是一类将序列建模视为微分方程求解过程的模型,形式如下:
其中,A为状态转移矩阵,B为输入矩阵。通过适当离散化(如零阶保持法),该模型可转化为线性 RNN 形式:
近期一系列工作(如 S4、HiPPO、Mamba)在以下三个方面进行了关键创新:
1. 对角化参数化:将状态矩阵 A 约束为复数对角矩阵,结合 HiPPO 初始化以优化长程建模能力;
2. 输入相关动态性:引入选择机制,使状态转移动态依赖于当前输入;
3. 卷积视角优化:将状态更新过程转化为全局卷积运算,并结合 FFT 实现并行加速。
实验表明,纯SSM(如S4、S5,可见相关论文)在长序列基准测试(如Long Range Arena)中显著优于传统RNN,而混合架构(如Griffin模型)通过嵌入局部注意力模块,进一步缩小了与 Transformer 的性能差距。
硬件效率与算法协同:工程层面的关键突破
硬件效率与算法协同:工程层面的关键突破
Transformer 的瓶颈不仅在算法本身,更在于对显存和内存带宽的高度依赖。为此,诸如 FlashAttention、Mamba CUDA 核、RetNet 分块机制等优化方案被提出,通过融合计算、稀疏访存等方式,显著降低了计算图构建与内存读写开销。
例如:
FlashAttention:通过分块(tiling)和非物化(non-materialization)避免存储大型注意力矩阵,减少内存的读写操作;
Mamba:将状态更新表达为逐元素操作,极大提高 GPU 并行利用率;
Jamba、Zamba:以极少参数代价融合 Mamba 与注意力模块,实现精度-效率兼顾。
这些优化使得混合模型在 7B 量级已逼近纯 Transformer 的性能,但训练速度提升高达 40%。
无限上下文与持续学习:下一代架构的挑战
无限上下文与持续学习:下一代架构的挑战
尽管当前模型在有限长序列任务上表现优异,但面对实时流数据、视频、传感器等无限输入场景,仍存在如下挑战:
1. 梯度截断限制在线学习:BPTT(时间反向传播)对固定长度窗口的依赖,使得模型难以适应长时流式输入;
2. 状态-计算权衡难题:长时间保持状态增加内存压力,而状态压缩又可能丢失关键信息;
3. 表达能力限制:理论上,SSM 和线性注意力无法模拟 TC0 以上复杂度的语言结构,处理嵌套关系存在天然障碍。
新兴模型如 Liquid-S4、神经振荡器等,尝试引入时变参数与节律性记忆更新机制,以提升非线性表达能力与上下文持续性,正在为无限上下文(Infinite Context)序列建模探索可能路径。
从 RNN 到 Transformer,再到深度状态空间模型,长序列建模的演化史本质上是状态表示能力与计算效率的螺旋上升。当下新一代架构借助对角化、线性递推和硬件协同设计,逐渐模糊了原有技术边界,也重塑了我们对模型效率与可扩展性的理解。尽管 Transformer 仍是当前大模型的基石,但循环机制的复兴已成不可逆趋势——它不仅是效率提升的选择,更是对生物智能“逐步、流动式处理”本质的回归。在这一背景下,时序-时空大模型(Spatiotemporal Large Models, STLM)应运而生,将 SSM 的连续建模能力与 Transformer 的全局注意力能力融合,在气候建模、交通预测等多变量、长时域任务中展现出卓越潜力。未来的“终极架构”,很可能就在这些技术交汇处孕育而生。
「计算神经科学」读书会
人类大脑是一个由数以百亿计的神经元相互连接所构成的复杂系统,被认为是「已知宇宙中最复杂的物体」。本着促进来自神经科学、系统科学、信息科学、物理学、数学以及计算机科学等不同领域,对脑科学、类脑智能与计算、人工智能感兴趣的学术工作者的交流与合作,集智俱乐部联合国内外多所知名高校的专家学者发起神经、认知、智能系列读书会第三季——「计算神经科学」读书会,涵盖复杂神经动力学、神经元建模与计算、跨尺度神经动力学、计算神经科学与AI的融合四大模块,并希望探讨计算神经科学对类脑智能和人工智能的启发。读书会已完结,现在报名可加入社群并解锁回放视频权限。
推荐阅读
1. 长序列预测 & 时空预测万字长文:一文带你探索多元时间序列预测的研究进展!
5. 探索者计划 | 集智俱乐部2025内容团队招募(全职&兼职)
6. 加入集智,玩转复杂,共创斑图!集智俱乐部线下志愿者招募
点击“阅读原文”,报名读书会