小米技术 2025-08-07 17:49 北京
自然语言处理领域顶级国际会议 ACL 2025 于2025年7月27日到8月1日在奥地利维也纳举行。本届会议共录用 1,699篇主会论文 和 1,392篇 Findings 论文,并于当地时间7月30日公布了本届大会的论文奖项。SAC Highlights 奖项由高级领域主席在其研究领域推荐优秀论文,并由 ACL 2025 奖励委员会最终确定名单。本届共有 47篇论文入选,占录用论文总数的1.5%。
由小米 MiLM PLUS 团队主导完成的论文 “HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation” 成功入选 SAC Highlights!
奖项详情:
https://2025.aclweb.org/program/awards/#sac-highlights
论文详情:https://aclanthology.org/2025.acl-long.1123.pdf
TL;DR: 我们对位置编码的远程衰减进行分析,发现位置相关的注意力模式并不呈现全局远程衰减,而是U型曲线;我们进一步分析了RoPE中各个分量对U型模式的作用,发现某些分量的对模型最优学习有阻碍作用;我们设计了新的位置编码HoPE,在模型感知和外推能力上都得到了很大的提升。
一、研究动机
许多位置编码的设计原理都遵循远程衰减原则:距离越远的token越不相关,需要更少的关注。但在大模型时代,我们认为这种设计似乎并不合理。随着大模型的应用场景扩充到长文本下,我们发现大模型需要从大量的上文中检索出关键信息,这种情况下过度依赖位置衰减可能限制模型的感知与外推能力。
二、实验分析
我们首先通过对多种 PE 的实证分析,揭示了模型在训练中实际学习到的注意力模式与“长期衰减”原则相悖。具体来说,模型只在局部保留了衰减模式,而在全局上则呈现出一种 U 型注意力分布。
进一步地,我们对目前最流行的 RoPE 进行更深入地剖析。我们分析了RoPE各个频率分量对实际注意力模式的真正贡献,并获得了以下三个关键发现:
(1)Attention模式和某些特殊分量(“激活”分量)有强相关关系,但是模型训练过程在削弱这些分量的贡献,这可能是一种阻碍优化的“捷径学习”。
(2)这些“激活”分量会在外推时导致注意力 logits 的分布外(OOD)行为,是导致RoPE外推能力差的主要原因。
(3)比这些“激活”分量更低频的分量会学成与位置无关的恒定模式,并且没有被有效利用。
三、HoPE:改进型位置编码
基于上述的这些洞察,我们提出我们改进的位置编码HoPE:移除了 RoPE 中那些注定会被“激活”的以及频率最低的分量,只保留高频信号来表示位置信息。我们的具体做法是:(1)通过训练长度求出分量的分界点。(2)只对分界点前的分量采用位置编码。如下式所示。
四、实验验证
我们进行了广泛的实验,并在3B模型上验证了HoPE无论是在上下文感知能力上还是外推能力上,都显著超越了RoPE。
五、总结
我们探讨了各种位置编码的实际的注意力模式,并观察到与位置相关的注意力倾向于形成U形pattern,更多地受益于局部衰减而非全局。我们对旋转位置嵌入(RoPE)的进一步分析揭示了这种U形模式与RoPE中的某些分量有很强的相关性。我们发现RoPE中的某些“激活”分量和top低频分量阻碍了模型的最佳学习过程,限制了其上下文感知能力和外推能力。因此,我们提出了我们的位置编码方法HoPE,该方法从理论上打破了长期衰减的原则,允许位置编码的分量更有效地学习。广泛的实验表明,这种方法在增强上下文感知和外推方面是有效的。
最后,希望我们的工作能够激励社区重新审视许多在transformers中被认为是理所当然的设计,并推动更强大大型语言模型(LLMs)的开发。
作为在大模型与多模态 AI 方向持续探索的团队,小米不仅关注模型在文本领域的突破,也在语音、视觉等多模态方向进行深入研究,构建了覆盖大语言模型、多模态模型及智能体(AI Agent)的技术体系。这些研究与实践已应用于移动设备、车载系统、智能家居等多个场景,为实际产品与用户体验提供技术支撑。
未来,我们将继续坚持“技术为本”,在 AI 领域持续投入,推动创新技术从研究到大规模落地,探索更强大的下一代智能交互方式。
END