小米技术 10小时前
小米大模型团队论文入选ACL 2025 SAC Highlights
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

小米MiLM PLUS团队主导完成的论文“HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation”成功入选ACL 2025 SAC Highlights奖项。该研究分析了位置编码的远程衰减原则,发现模型实际学习到的注意力模式与“长期衰减”原则相悖,呈现U型注意力分布。基于此,团队提出了改进的位置编码HoPE,在模型感知和外推能力上都得到了很大的提升。

🔍 研究发现,位置相关的注意力模式并不呈现全局远程衰减,而是U型曲线,与传统的远程衰减原则相悖。

📈 对RoPE的深入分析揭示了某些特殊分量(“激活”分量)对模型最优学习有阻碍作用,并在外推时导致注意力 logits 的分布外(OOD)行为,是导致RoPE外推能力差的主要原因。

✨ 提出了新的位置编码HoPE,移除了RoPE中注定会被“激活”的以及频率最低的分量,只保留高频信号来表示位置信息,有效提升了模型的上下文感知能力和外推能力。

🌐 小米MiLM PLUS团队的研究成果为大型语言模型(LLMs)的开发提供了新的思路,并推动了更强大LLMs的构建。

🚀 小米在大模型与多模态 AI 方向持续探索,构建了覆盖大语言模型、多模态模型及智能体(AI Agent)的技术体系,并已应用于多个场景。

小米技术 2025-08-07 17:49 北京

自然语言处理领域顶级国际会议 ACL 2025 于2025年7月27日到8月1日在奥地利维也纳举行。本届会议共录用 1,699篇主会论文 和 1,392篇 Findings 论文,并于当地时间7月30日公布了本届大会的论文奖项。SAC Highlights 奖项由高级领域主席在其研究领域推荐优秀论文,并由 ACL 2025 奖励委员会最终确定名单。本届共有 47篇论文入选,占录用论文总数的1.5%

由小米 MiLM PLUS 团队主导完成的论文 “HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation” 成功入选 SAC Highlights!



奖项详情:

https://2025.aclweb.org/program/awards/#sac-highlights

论文详情:https://aclanthology.org/2025.acl-long.1123.pdf

TL;DR: 我们对位置编码的远程衰减进行分析,发现位置相关的注意力模式并不呈现全局远程衰减,而是U型曲线;我们进一步分析了RoPE中各个分量对U型模式的作用,发现某些分量的对模型最优学习有阻碍作用;我们设计了新的位置编码HoPE,在模型感知和外推能力上都得到了很大的提升。

一、研究动机

许多位置编码的设计原理都遵循远程衰减原则:距离越远的token越不相关,需要更少的关注。但在大模型时代,我们认为这种设计似乎并不合理。随着大模型的应用场景扩充到长文本下,我们发现大模型需要从大量的上文中检索出关键信息,这种情况下过度依赖位置衰减可能限制模型的感知与外推能力。

二、实验分析

我们首先通过对多种 PE 的实证分析,揭示了模型在训练中实际学习到的注意力模式与“长期衰减”原则相悖。具体来说,模型只在局部保留了衰减模式,而在全局上则呈现出一种 U 型注意力分布。

进一步地,我们对目前最流行的 RoPE 进行更深入地剖析。我们分析了RoPE各个频率分量对实际注意力模式的真正贡献,并获得了以下三个关键发现:

(1)Attention模式和某些特殊分量(“激活”分量)有强相关关系,但是模型训练过程在削弱这些分量的贡献,这可能是一种阻碍优化的“捷径学习”。

(2)这些“激活”分量会在外推时导致注意力 logits 的分布外(OOD)行为,是导致RoPE外推能力差的主要原因。

(3)比这些“激活”分量更低频的分量会学成与位置无关的恒定模式,并且没有被有效利用。


三、HoPE:改进型位置编码

基于上述的这些洞察,我们提出我们改进的位置编码HoPE:移除了 RoPE 中那些注定会被“激活”的以及频率最低的分量,只保留高频信号来表示位置信息。我们的具体做法是:(1)通过训练长度求出分量的分界点。(2)只对分界点前的分量采用位置编码。如下式所示。


四、实验验证


我们进行了广泛的实验,并在3B模型上验证了HoPE无论是在上下文感知能力上还是外推能力上,都显著超越了RoPE。


五、总结


我们探讨了各种位置编码的实际的注意力模式,并观察到与位置相关的注意力倾向于形成U形pattern,更多地受益于局部衰减而非全局。我们对旋转位置嵌入(RoPE)的进一步分析揭示了这种U形模式与RoPE中的某些分量有很强的相关性。我们发现RoPE中的某些“激活”分量和top低频分量阻碍了模型的最佳学习过程,限制了其上下文感知能力和外推能力。因此,我们提出了我们的位置编码方法HoPE,该方法从理论上打破了长期衰减的原则,允许位置编码的分量更有效地学习。广泛的实验表明,这种方法在增强上下文感知和外推方面是有效的。

最后,希望我们的工作能够激励社区重新审视许多在transformers中被认为是理所当然的设计,并推动更强大大型语言模型(LLMs)的开发。

作为在大模型与多模态 AI 方向持续探索的团队,小米不仅关注模型在文本领域的突破,也在语音、视觉等多模态方向进行深入研究,构建了覆盖大语言模型、多模态模型及智能体(AI Agent)的技术体系。这些研究与实践已应用于移动设备、车载系统、智能家居等多个场景,为实际产品与用户体验提供技术支撑。

未来,我们将继续坚持“技术为本”,在 AI 领域持续投入,推动创新技术从研究到大规模落地,探索更强大的下一代智能交互方式。

END


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ACL 2025 小米 SAC Highlights 位置编码 HoPE 自然语言处理
相关文章