集智俱乐部 05月29日 21:57
Nature子刊|长序列的悖论:状态空间模型能否打破注意力瓶颈?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

人工智能领域正经历一场技术变革,循环神经网络(RNN)和状态空间模型(SSM)等经典方法正与Transformer融合,旨在构建更高效、可扩展的序列建模架构。Transformer虽在序列建模中占据主导地位,但其计算成本日益成为瓶颈。新研究表明,融合Transformer与循环机制的新一代架构,如线性循环结构、状态更新函数和门控机制,能在保持表达能力的同时显著降低计算开销。这些方法在训练效率、推理速度与硬件友好性等方面提供了全新路径,挑战了“注意力至上”的主流范式,为未来人工智能系统的可持续发展提供了可能。

🔄 Transformer架构在处理长序列数据时面临计算复杂度和显存瓶颈问题,促使研究人员重新审视RNN和SSM等经典方法,探索融合方案以提高效率和表达能力。

🧠 循环神经网络通过门控机制(如LSTM和GRU)增强了对长程依赖的建模能力,并通过正交或单位矩阵约束权重来提升稳定性,从而在序列数据中捕捉时序特征。

💡 线性注意力机制通过重构注意力核函数,将Transformer的计算复杂度从O(L²)降低到O(L),使其具备“近似循环”的特征,并引入门控机制增强模型的局部选择性和长期记忆保持能力。

🔬 状态空间模型(SSM)将序列建模视为微分方程求解过程,通过对角化参数化、输入相关动态性和卷积视角优化等关键创新,在长序列基准测试中表现出色,并能与Transformer融合进一步提升性能。

💻 硬件效率与算法协同是关键突破,FlashAttention、Mamba CUDA 核、RetNet 分块机制等优化方案通过融合计算、稀疏访存等方式,显著降低了计算图构建与内存读写开销,提升了训练速度和推理效率。

原创 赵思怡 2025-05-28 21:52 上海

导语

在人工智能飞速发展的背景下,支撑大语言模型(LLM)的核心技术——Transformer,以其强大的序列建模能力广受瞩目。然而,随着应用规模不断扩大,其日益增长的计算成本也正逐渐显现为关键瓶颈。近期一篇发表在 Nature Machine Intelligence 的综述指出:我们正迎来一场悄然的技术转变——循环神经网络(Recurrent Neural Networks, RNN)和状态空间建模(State Space Models, SSM)等经典方法正被重新审视,并与 Transformer 融合,推动更高效、可扩展的序列建模架构。这不仅关乎性能,更关乎未来人工智能系统的可持续发展。

关键词:循环神经网络(RNN)、Transformer、状态空间模型(SSM)、长序列建模、线性循环单元(LRUs)、自注意力机制、梯度消失、序列学习

赵思怡丨作者

论文题目:Back to recurrent processing at the crossroad of transformers and state-space models

发表时间:2025年5月15日

论文地址:https://doi.org/10.1038/s42256-025-01034-6

发表期刊:nature machine intelligence

开发能够处理和有效学习长序列数据的模型,一直是机器学习领域面临的一项长期挑战。Transformer 架构,尤其是大语言模型所展现出的强大能力,使得基于并行注意力机制的方法成为应对这一挑战的核心路径,也在一定程度上弱化了传统循环架构在序列建模方面的优势与价值。然而,自注意力机制带来的计算复杂度问题日益受到关注,近年来涌现出一类新型神经网络模型——深度状态空间模型((deep) State-Space Models, SSMs)它们融合了 Transformer 与循环网络的优势,旨在兼顾效率与表达能力。与此同时,也逐渐被证明是时间序列函数逼近的有效工具,为序列数据的学习提供了新的理论视角与建模思路。本文综述了这些在“循环模型”统一框架下的最新进展,并探讨其在未来大规模生成模型架构发展中的潜在关键作用。

序列之争:

Transformer、RNN与SSM的融合新拐点

近年来,Transformer 以其并行注意力机制在自然语言处理、图像生成等任务中大放异彩,几乎取代了传统 RNN 成为主流。然而,随着对长序列处理的需求不断上升,Transformer 固有的O(L2)计算复杂度和显存瓶颈问题日益突出。与此同时,一批融合 Transformer 与循环机制的新一代架构陆续涌现,借助线性循环结构、状态更新函数和门控机制,在保持表达能力的同时显著降低计算开销,引发“循环复兴”浪潮。这不仅挑战了“注意力至上”的主流范式,也为模型在训练效率、推理速度与硬件友好性等方面提供了全新路径。

图1:用于序列处理的前一代与当前一代神经网络模型

循环模型的核心演化:从梯度消失到门控记忆

循环模型在状态随时间演化的过程中捕捉序列数据中的时序特征。传统的 Elman 网络通过状态随时间递推建模时序依赖,但在反向传播中极易遭遇梯度消失或爆炸问题。为解决这一问题,长短期记忆网络(LSTM)门控循环单元(GRU)引入了遗忘门和输入门等机制,通过动态调节信息流有效增强了模型对长程依赖的建模能力。

为进一步提升稳定性,近年来不少工作尝试使用正交或单位矩阵约束权重,从而控制梯度范数,减缓数值不稳定性。尽管这可能会牺牲一部分模型表达力,但其在增强记忆保持能力上的表现令人瞩目。

线性注意力机制:

让Transformer回归“循环”本质

Transformer 的自注意力机制需对所有 token 对进行相似性计算,但其计算复杂度随序列长度L呈平方增长O(L2),限制了其在长序列任务中的扩展性。为解决这一问题,线性 Transformer 重构了注意力核函数,使用非线性特征映射ϕ(⋅)将 query 和 key 映射至低维空间,使得注意力得分可以写作矩阵外积形式,从而将复杂度降至将 query 和 key 映射至低维空间,使得注意力得分可以写作矩阵外积形式,从而将复杂度降至O(L)

公式如下:

这种形式将原本“全局比较”的注意力过程转化为状态递推过程,令 Transformer 层具备“近似循环”的特征。进一步优化如随机特征映射、门控机制(RetNet、GAU 等)等策略,在提升表达能力的同时,也增强了模型的局部选择性与长期记忆保持能力。例如,门控线性注意力进一步引入了与输入相关的衰减因子γ,以类比人类记忆的“遗忘机制”,增强对局部上下文的建模能力。

(该γ为文中多种门控或指数衰减形式的泛指,而非特定变量。)

这些方法在语言建模等任务中已逼近甚至接近传统 Transformer 的性能,同时大幅降低了内存占用和推理成本。

表1 :用于长序列处理的前一代与当前一代架构对比(遵循图1的组织方式,展示了本文讨论的一些特征在近期不同方法中的分布情况,比较了几类代表性模型)

状态空间模型(SSM):

循环建模的连续化演化

SSM 本质上是一类将序列建模视为微分方程求解过程的模型,形式如下:

其中,A为状态转移矩阵,B为输入矩阵。通过适当离散化(如零阶保持法),该模型可转化为线性 RNN 形式:

图2:具有因果注意力机制的 Transformer 中输出计算的演变

近期一系列工作(如 S4、HiPPO、Mamba)在以下三个方面进行了关键创新:

1. 对角化参数化:将状态矩阵 A 约束为复数对角矩阵,结合 HiPPO 初始化以优化长程建模能力;

2. 输入相关动态性:引入选择机制,使状态转移动态依赖于当前输入;

3. 卷积视角优化:将状态更新过程转化为全局卷积运算,并结合 FFT 实现并行加速。

实验表明,纯SSM(如S4S5,可见相关论文)在长序列基准测试(如Long Range Arena)中显著优于传统RNN,而混合架构(如Griffin模型)通过嵌入局部注意力模块,进一步缩小了与 Transformer 的性能差距。

图3:状态空间模型(SSMs)中输出计算的演变

硬件效率与算法协同:工程层面的关键突破

Transformer 的瓶颈不仅在算法本身,更在于对显存和内存带宽的高度依赖。为此,诸如 FlashAttention、Mamba CUDA 核、RetNet 分块机制等优化方案被提出,通过融合计算、稀疏访存等方式,显著降低了计算图构建与内存读写开销。

例如:

这些优化使得混合模型在 7B 量级已逼近纯 Transformer 的性能,但训练速度提升高达 40%。

无限上下文与持续学习:下一代架构的挑战

尽管当前模型在有限长序列任务上表现优异,但面对实时流数据、视频、传感器等无限输入场景,仍存在如下挑战:

1. 梯度截断限制在线学习:BPTT(时间反向传播)对固定长度窗口的依赖,使得模型难以适应长时流式输入;

2. 状态-计算权衡难题:长时间保持状态增加内存压力,而状态压缩又可能丢失关键信息;

3. 表达能力限制:理论上,SSM 和线性注意力无法模拟 TC0 以上复杂度的语言结构,处理嵌套关系存在天然障碍。

新兴模型如 Liquid-S4、神经振荡器等,尝试引入时变参数与节律性记忆更新机制,以提升非线性表达能力与上下文持续性,正在为无限上下文(Infinite Context)序列建模探索可能路径。

从 RNN 到 Transformer,再到深度状态空间模型,长序列建模的演化史本质上是状态表示能力与计算效率的螺旋上升。当下新一代架构借助对角化、线性递推和硬件协同设计,逐渐模糊了原有技术边界,也重塑了我们对模型效率与可扩展性的理解。尽管 Transformer 仍是当前大模型的基石,但循环机制的复兴已成不可逆趋势——它不仅是效率提升的选择,更是对生物智能“逐步、流动式处理”本质的回归。在这一背景下,时序-时空大模型(Spatiotemporal Large Models, STLM)应运而生,将 SSM 的连续建模能力与 Transformer 的全局注意力能力融合,在气候建模、交通预测等多变量、长时域任务中展现出卓越潜力。未来的“终极架构”,很可能就在这些技术交汇处孕育而生。

「计算神经科学」读书会

人类大脑是一个由数以百亿计的神经元相互连接所构成的复杂系统,被认为是「已知宇宙中最复杂的物体」。本着促进来自神经科学、系统科学、信息科学、物理学、数学以及计算机科学等不同领域,对脑科学、类脑智能与计算、人工智能感兴趣的学术工作者的交流与合作,集智俱乐部联合国内外多所知名高校的专家学者发起神经、认知、智能系列读书会第三季——「计算神经科学」读书会,涵盖复杂神经动力学、神经元建模与计算、跨尺度神经动力学、计算神经科学与AI的融合四大模块,并希望探讨计算神经科学对类脑智能和人工智能的启发。读书会已完结,现在报名可加入社群并解锁回放视频权限。

推荐阅读

1. 长序列预测 & 时空预测万字长文:一文带你探索多元时间序列预测的研究进展

2. 大语言模型复杂推理的自我进化机制:研究综述与前沿展望

3. 压缩即智能:连接大语言模型与复杂性研究

4. 游戏化科研——让我们突破内卷、共研涌现

5.  探索者计划 | 集智俱乐部2025内容团队招募(全职&兼职)

6. 加入集智,玩转复杂,共创斑图!集智俱乐部线下志愿者招募

点击“阅读原文”,报名读书会

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RNN Transformer 状态空间模型 序列建模 人工智能
相关文章