PaperWeekly 前天 01:37
ICML 2025 | Transformer还有救?魔改残差连接,MUDDFormer硬刚超深网络
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,彩云科技与北京邮电大学联合提出了一种名为多路动态稠密连接(MUDD)的新型连接方式,旨在解决 Transformer 模型中残差连接存在的局限性,如表示坍塌和信息过载问题。MUDDFormer 通过为 Q、K、V、R 等不同信息流定制独立的动态跨层连接,有效提升了信息传递效率,显著增强了模型的上下文学习能力。实验表明,MUDDFormer 在参数量和计算量仅微弱增加的情况下,能显著超越同等规模甚至更大规模的基线模型,展现出巨大的性能和效率提升潜力,有望成为下一代基础模型架构的重要基石。

💡 **残差连接的局限与MUDD的创新**:文章指出,尽管残差连接是深度学习和 Transformer 的基石,但在当前深度 Transformer LLMs 中存在深层隐状态表征坍塌和残差流信息过载的瓶颈。MUDDFormer 提出的多路动态稠密连接,通过为 Transformer 中 Query (Q)、Key (K)、Value (V) 和残差流 (R) 这四路信息流分别建立独立的动态跨层连接,有效缓解了这些问题,拓宽了跨层信息传输带宽。

🚀 **动态连接与多路解耦的优势**:MUDDFormer 的核心在于其动态连接机制,连接权重由当前层的隐状态动态生成,使得模型能根据每个 token 的上下文语境自适应地从前面层提取信息,这相当于在深度维度上实现了单头注意力。在此基础上,将动态连接解耦为多路(Q, K, V, R),使得每一路信息流都能根据自身需求更高效地获取对应信息,如同深度向的多头注意力,进一步提升了信息传递的精细度和效率。

📈 **性能与效率的显著提升**:通过大规模预训练实验,MUDDFormer 架构在参数量和计算量仅增加极少比例的情况下,展现出惊人的性能飞跃。例如,2.8B 参数量的 MUDDPythia 模型在 0-shot 和 5-shot 评估中,分别媲美了 6.9B 和 12B 参数量的 Pythia 模型,实现了 2.4 倍至 4.2 倍的计算效率提升。在深度扩展实验中,MUDDFormer 在增加模型深度时仍能保持性能收益,有效缓解了深度瓶颈。

🔬 **注意力机制的激活与上下文能力增强**:MUDDPythia 模型相比于标准 Pythia 模型,在几乎所有层的注意力头激活率上都有显著提升(平均高出约 2.4 倍)。这表明 MUDD 连接加强了模型对 Attention 机制的利用,有效解决了“attention sink”问题,从而增强了模型处理复杂推理和上下文学习的能力,这在下游任务测评中得到了充分验证。

让你更懂AI的 2025-07-21 13:32 北京

Transformer的老毛病,终于有人动刀了!

当下大多数人都觉得 Transformer 已经被研究得差不多了,想在结构上做出能超越它的创新,基本不太可能了。

但是总有人愿意打破常规,最近一篇 ICML 2025 的论文,又让 Transformer 有了新活力。它把目光放在了 Transformer 里一个我们平时没太在意、甚至有点忽略的部分——残差连接。

残差连接(residual connections)自何恺明在 2015 年开山之作 ResNet [1] 中提出后,就成为深度学习乃至 Transformer LLMs 的一大基石。但在当今的深度 Transformer LLMs 中仍有其局限性,限制了信息在跨层间的高效传递。

彩云科技与北京邮电大学近期联合提出了一个简单有效的残差连接替代:多路动态稠密连接(MUltiway Dynamic Dense (MUDD) connection),大幅度提高了 Transformer 跨层信息传递的效率。


论文标题:

MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections

论文链接:

https://arxiv.org/abs/2502.12170

代码链接:

https://github.com/Caiyun-AI/MUDDFormer

模型链接:

https://huggingface.co/Caiyun-AI/MUDDFormer-2.8B

https://huggingface.co/Caiyun-AI/MUDDPythia-1.4B

https://huggingface.co/Caiyun-AI/MUDDPythia-2.8B

大规模语言模型预训练实验表明,仅增加 0.23% 的参数量和 0.4% 的计算量,采用该架构的 2.8B 参数量 MUDDPythia 模型即可在 0-shot 和 5-shot 评估中分别媲美 6.9B 参数量(~2.4 倍)和 12B 参数量(~4.2 倍)的 Pythia 模型,表明了 MUDD 连接对 Transformer 的基础能力(尤其是上下文学习能力)的显著提升。

这是该团队继 DCFormer [2](ICML 2024)后又一项大模型底层架构创新工作,已被 ICML 2025 接收,论文、代码和模型权重均已公开。


背景

在 Transformer 中残差流汇集了多层的信息,同时也为 Attention 和 FFN 提供多路信息,比如在 Attention 模块中需要获取 query、key、value 三路信息,残差流本身也可以看作一路信息流(记作 R)。

虽然残差连接的引入首次让训练超深度网络成为可能,但在当今的深度 Transformer LLMs 中仍有其局限:

深层隐状态的表征坍塌(Representation Collapse)目前 Transformer LLM 普遍采用 Pre-Norm 训练,多个理论和实证工作 [3,4] 表明,当达到一定层深后,再增加更多的层会出现边际效应递减,相邻层的隐状态表征高度相似(即「表征坍塌」),让参数和算力 scaling 的效果大打折扣。

残差流的信息过载Transformer 机制可解释性研究表明,跨越不同层的注意力头和前馈网络通过读写残差流(residual stream)交互组成回路(circuit),对模型的上下文学习(in-context learning)等能力至关重要。

在非常深的 Transformer 模型中,残差流作为多层间「通信总线」可能因为多路信息共享残差流,以及多层信息在深层汇集而「超载」成为瓶颈,妨碍形成解决困难任务所必须的复杂回路。

针对上述局限,MUDD 根据当前隐状态动态搭建跨层连接(可视为深度方向的多头注意力),来缓解深层隐状态的表征坍塌,同时针对 Transformer 每层的 query、key、value、残差等不同输入流采用各自的动态连接,来减少多路信息流的相互干扰,缓解残差流的信息过载,这样既大幅度拓宽了跨层信息传输带宽,又保证了非常高的参数和计算效率。


核心架构

如图 1a 所示,为了实现更直接的跨层交互,DenseNet [5] 将当前 Block 和前面所有的 Block 进行稠密连接(Dense Connectivity)。

最近 Pagliardini 等人 [6] 将其引入 Transformer,提出了 DenseFormer(NeurIPS 2025),如图 1b 所示。

它通过一组可学习但静态的权重(如 _i,j)来加权求和前面所有层的输出。这种方式虽然拓宽了信息通路,但静态权重使得对于序列中不同 token 都做同样处理,限制了表达能力。


▲ 图1. MUDD 的架构图

研究者首先提出了 DynamicDenseFormer(如图 1c),用 表示第个 token 的跨层信息聚合模块 (Depth-wise Aggregate),连接权重不再是固定的参数,而是由当前层的隐状态动态生成的一个权重矩阵

这意味着,模型可以根据每个 token 的上下文语境,自适应地决定应该从前面的哪一层、以多大的权重提取信息。本质上,这可以看作是在深度维度上的一次单头注意力,与 Vaswani 等人 [7] 在 Transformer 中提出的 token 维度上的注意力机制遥相呼应。

在 DynamicDenseFormer 的基础上引入多路连接就得到了 MUDDFormer,如图 1d 所示,它将原本单一的动态连接,解耦成四路独立的动态连接,分别为 Q、K、V、R(图 1d 中的等)定制各自的跨层信息聚合模块。

这样每一路信息流都可以根据自己的需求,更高效地从前面层中获取对应信息。可看作是深度向的多头注意力。


实验评估

Scaling Law


▲ 图2. MUDDFormer和基线模型的扩展实验

研究者在 Pile 数据集上测试了 MUDDFormer 和其他基线模型的扩展能力,如图 2 所示。

Hyper-Connections [8] 也是字节跳动 Seed 最近一个发表在 ICLR 2025 的改进残差连接的工作,图 2 中可见 DynamicDenseFormer 已经比 DenseFormer 和 Hyper-Connections 都表现好,而且在解耦多路信息流后,MUDDFormer 又有明显的效果提升。

在所有模型尺寸下 MUDDFormer 都显著领先 Transformer++ 和其他基线模型 (Loss 越低越好),并且其领先优势随着模型增大并未减小。MUDDFormer-834M 的性能,已经超越了需要 1.89 倍计算量的 Transformer++ 基线模型,展现了惊人的计算效率提升。


▲ 图3. MUDDFormer和Transformer++的深度扩展实验

为了验证 MUDDFormer 在更深层模型上的有效性,研究者在不增加参数量的前提下增加模型的深度,并进行了扩展实验,如图 3。

Transformer++ 在超过 24 层后收益递减(缩放曲线几乎重合),而 deep MUDDFormer 在高达 42 层时仍能保持收益,使得在 797M 下达到了 2.08 倍 Transformer++ 的性能。这进一步验证了 MUDD 连接可以通过增强跨层信息流来缓解深度引起的瓶颈。

下游任务测评

研究者将 MUDD 架构与开源的 Pythia 模型框架结合,在 300B tokens 的数据上进行训练,并与从 1.4B 到 12B 的全系列 Pythia 模型进行比较,如图 4。

▲ 图4. 下游任务对比测评

首先,MUDDPythia 在 0-shot 和 5-shot 任务上的平均准确率,都明显高于同等计算量下的 Pythia 模型,而且在 5-shot 下的提升效果更明显,说明上下文能力得到了额外的增强。

从图 5 中可以看出在 0-shot 下,2.8B 的 MUDDPythia 的性能媲美了 6.9B 的 Pythia,实现了 2.4 倍的计算效率飞跃;在 5-shot 下,2.8B 的 MUDDPythia 的性能,甚至追平了 12B 的 Pythia,实现了 4.2 倍计算效率提升! 

▲ 图5. 下游任务准确率对比曲线

这表明,MUDD 所构建的高效信息通路,极大地增强了模型在上下文中动态构建复杂推理回路的能力。


分析

图 6 展示了模型注意力头激活比例随层数的变化,在标准的 Pythia 模型中,随着层数加深大量注意力头都只关注少数几个 token(attention sink [9])并未激活。


▲ 图6. 注意力头激活比例的逐层变化曲线

然而,在 MUDDPythia 中,几乎在所有层的注意力头激活率都远高于 Pythia,平均高出约 2.4 倍。这说明 MUDD 连接加强了对 Attention 的利用,也部分解释了上下文能力的增强。


结语

MUDDFormer 通过简单高效的实现改进了残差连接,为 Transformer 内部不同的信息流(Q、K、V、R)建立各自独立的动态跨层连接,不仅增强了 Transformer 模型的跨层交互,而且进一步提升了模型的上下文学习能力。

实验证明这种新的连接机制能以微弱的代价,换来模型性能和计算效率的巨大飞跃。MUDDFormer 所展示的潜力,使其有望成为下一代基础模型架构中不可或缺的新基石。

参考文献

[1] He, K., Zhang, X., Ren, S., and Sun, J. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), pp. 770–778, 2016.

 [2] Xiao, Da, et al. "Improving transformers with dynamically composable multi-head attention." Proceedings of the 41st International Conference on Machine Learning. 2024. 

[3] Liu, L., Liu, X., Gao, J., Chen, W., and Han, J. Understanding the difficulty of training transformers. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020b.

 [4] Gromov, A., Tirumala, K., Shapourian, H., Glorioso, P., and Roberts, D. A. The unreasonable ineffectiveness of the deeper layers. arXiv preprint arXiv:2403.17887, 2024. 

[5] Huang, G., Liu, Z., Van Der Maaten, L., and Weinberger, K. Q. Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), pp. 4700–4708, 2017. 

[6] Pagliardini, M., Mohtashami, A., Fleuret, F., and Jaggi, M. Denseformer: Enhancing information flow in transformers via depth weighted averaging. In Proceedings of the Thirty-Eighth Annual Conference on Neural Information Processing Systems (NeurIPS), 2024. 

[7] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. Attention is all you need. Advances in neural information processing systems, 30, 2017.

 [8] Zhu, D., Huang, H., Huang, Z., Zeng, Y., Mao, Y., Wu, B., Min, Q., and Zhou, X. Hyper-connections. In Proceedings of the Thirteenth International Conference on Learning Representations (ICLR), 2025 

[9] Xiao, G., Tian, Y., Chen, B., Han, S., and Lewis, M. Efficient streaming language models with attention sinks. In The Twelfth International Conference on Learning Representations (ICLR), 2024b.

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 


如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编


🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Transformer MUDDFormer 残差连接 AI架构 语言模型
相关文章