小米技术 前天 18:42
ACL 2025 | 小米10篇大模型论文上新
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

小米大模型团队在ACL 2025上发布了10篇最新研究成果,涵盖大模型端侧高效推理、大模型GUI智能体、大模型基础结构创新等多个前沿领域。这些研究成果是小米科技战略在底层技术深耕的体现,其中5篇论文获得了小米揭榜挂帅科研专项的支持。文章聚焦于位置编码、长上下文推理、指令扩展、多图像理解、KV缓存优化、Web Agent、少样本上下文学习和小模型部署等关键技术,展现了小米在大模型领域的持续投入和创新实力。

💡HoPE(高频旋转位置编码)通过引入与位置无关的高频信号,打破了长期衰减的限制,提升了模型的上下文感知能力,并在外推任务中展现出更强的注意力鲁棒性,在一个参数规模为3B的大语言模型上展示了优越性。

💡TailorKV提出了一种混合压缩方法,无缝集成了量化和卸载,在激进的压缩设置下实现了几乎无损的性能,可以在单个 RTX 3090 GPU 上部署具有128k上下文的Llama-3.1-8B,解码速度为82毫秒/token。

💡Global Eye提出了一种基于动态提示更新的新方法,解决了LLMs的“固定思维模式”问题,使Llama3-8B和Llama2-13B在各种评估指标上超越了开源LLMs和GPT3.5的表现。

💡以焦点为中心的视觉链,增强了视觉语言模型在多图像场景中的感知、理解和推理能力,在七个多图像基准测试中实现了平均3.16%和2.24%的性能提升。

💡KV-Latent通过将键值向量的维度下采样到潜在空间,显著减少KV缓存的占用,提升推理速度,同时修改频率采样机制增强了旋转位置嵌入(RoPE)在低维向量上的稳定性。

💡SpindleKV提出了一种全新的KV缓存压缩方法,兼顾浅层与深层的平衡,在深层中采用基于注意力权重的淘汰方法,而在浅层中应用基于码本的替换方法,实现了更好的KV缓存压缩效果,同时保持了相似甚至更优的模型性能。

💡WebExperT框架模拟人类“快慢思考”的规划过程,从而有效地分解复杂的用户指令,并通过经验式学习,不断改进规划和决策结果,在MIND2WEB基准测试中表现优异。

💡DrICL通过区分和重新加权目标来提升模型性能,利用区分学习来优化NLL目标,并动态调整多样本演示的权重,从而减轻噪声数据的影响。

💡本文对60多个公开可获取的小语言模型进行了系统性研究,识别出多个关键的优化方向,包括:基于任务的动态路由机制、模型结构与硬件的协同设计,以及词表和KV Cache压缩等。

💡DAC动态融合了熵与注意力信息,能够在压缩过程中动态感知熵的变化,从而实现细粒度的提示压缩,在多个领域均能持续带来稳健且显著的性能提升。

小米大模型团队 2025-05-19 12:00 北京

近日,第 63 届国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,简称 ACL)公布了论文录用结果。

小米大模型共有 10 篇最新研究成果中选 ACL 2025,其中主会长文 9 篇,findings 长文 1 篇,涵盖了大模型端侧高效推理、大模型GUI智能体、大模型基础结构创新等。这是小米大模型部分研究成果的阶段性展示,同时也是践行小米科技战略中“深耕底层技术、长期持续投入”的又一例证。

| 5篇论文受小米揭榜挂帅科研专项(Xiaomi Open-Competition Research Program)支持

ACL 年会是计算语言学和自然语言处理领域国际排名第一的顶级国际学术会议,由国际计算语言学协会组织,每年召开一次,在中国计算机学会(CCF)推荐会议列表中被列为 A 类会议。2025 年是该会议的第 63 届,将于 7 月 27 日至 8 月 1 日在奥地利维也纳举行。

《HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation》

论文作者:陈雨涵,吕昂,栾剑,王斌,刘伟

录用类型:主会长文

许多位置编码(Positional Encodings, PE)在设计上具有长期衰减的特性,这一理念源于一种根深蒂固的归纳性假设:离当前位置越远的token,其携带的信息相关性越低。

然而,我们认为在大语言模型(LLM)时代,这一假设已不再适用。现代LLM被广泛用于需要从任意位置精确获取上下文信息的任务。我们首先对多种位置编码方法进行了实证分析,发现虽然模型学习到的是局部衰减的注意力模式,但整体上呈现出U型注意力分布,这与长期衰减假设相悖。进一步分析表明,这种U型模式的形成源于旋转位置编码(RoPE)中某些特定的可学习组件,而这些组件也限制了RoPE的表达力与泛化能力。

基于这一发现,我们提出了高频旋转位置编码(HoPE),通过引入与位置无关的高频信号替代RoPE中的关键组件,从理论上打破了长期衰减的限制。HoPE带来了两个显著优势:(1) 解除长期衰减对注意力机制的限制,提升了模型的上下文感知能力;(2) 在外推任务中展现出更强的注意力鲁棒性。我们通过大量实验证明了HoPE的有效性,并在一个参数规模为3B的大语言模型上展示了HoPE的优越性。

《TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache Optimization》

论文作者:姚丁钰,申博文,林政,刘伟,栾剑,王斌,王伟平

录用类型:Finding长文

生成式大语言模型 (LLM) 中的键值缓存(KV cache)会带来巨大的内存开销。现有研究通过卸载或压缩 KV cache 来减轻这一负担。然而,由于 CPU-GPU 通信中 PCIe 带宽的瓶颈,加载整个缓存会产生显著的延迟,而激进的压缩会导致明显的性能下降。

我们发现 LLM 中的某些层需要维护全局信息,不适合选择性加载。相比之下,其他层主要关注少数主导的 token,这些 token 可能会产生较大的量化误差。这一观察结果引出一个关键的见解:加载主导 token 和量化所有 token 可以互补。

基于这一见解,我们提出了一种混合压缩方法 TailorKV,它无缝集成了量化和卸载。TailorKV 开发了一个推理框架以及硬件友好的实现,充分利用了互补的特性。广泛的长上下文评估表明,TailorKV 在激进的压缩设置下实现了几乎无损的性能,优于最先进的技术。值得注意的是,具有 128k 上下文的 Llama-3.1-8B 可以在单个 RTX 3090 GPU 上部署,解码的速度为 82 毫秒/token。

《Global Eye: Breaking the "Fixed Thinking Pattern" during the Instruction Expansion Process》

论文作者:陆文煊,刘伟,栾剑,王斌,姜松浩,臧天宁

录用类型:主会长文

一个大规模的高质量指令数据集对于大语言模型(LLMs)的指令微调过程至关重要。近期的指令扩展方法通过让高性能LLM从原始指令生成多个新指令,已经证明了其提升现有数据集质量和数量的能力。

然而,现有方法主要关注构建多角度提示(例如,增加复杂性或难度)来扩展指令,忽视了LLMs的“固定思维模式”问题。这个问题源于重复使用相同的提示集,导致LLMs依赖有限的特定表达方式来扩展所有指令,可能会影响最终扩展数据集的多样性。

本文从理论角度分析了“固定思维模式”的成因,并通过多方面的实证研究证实了这一现象。此外,我们提出了一种基于动态提示更新的新方法:Global Eye。实验结果表明,我们的方法使Llama3-8B和Llama2-13B在各种评估指标上超越了开源LLMs和GPT3.5的表现。

《Weaving Context Across Images: Improving Vision-Language Modelsthrough Focus-Centric Visual Chains》

论文作者:张钧天,程传奇,刘雨涵,刘伟,栾剑,严睿

录用类型:主会长文

视觉语言模型(VLM)在单图像任务中取得了显著的成功。然而,现实世界的场景往往涉及错综复杂的多图像输入,导致模型难以理清分散在复杂视觉特征中的关键信息,从而导致性能显著下降。

在这项工作中,我们提出了以焦点为中心的视觉链,这是一种增强 VLM 在多图像场景中的感知、理解和推理能力的新范式。为了促进这一范式的发展,我们提出了以焦点为中心的数据合成,这是一种可扩展的自下而上的方法,用于合成具有细粒度推理路径的高质量数据。通过这种方法,我们构建了 VISC-K,这是一个以焦点为中心的视觉链形式包含推理数据的大规模数据集,专为多图像任务而设计。

在七个多图像基准测试中的实验结果表明,我们的方法在两个不同的模型架构中实现了平均 3.16% 和 2.24% 的性能提升,并且没有损害通用的视觉语言能力。我们的研究代表着我们朝着更强大、更强大的视觉语言系统迈出了重要一步,这些系统可以处理复杂的视觉场景。

《KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding》

论文作者:史洛合,李祖超,张乐飞,齐保元,刘国明,赵海

录用类型:主会长文

基于Transformer解码器的大型语言模型(LLMs)已成为对话式生成式AI的首选架构。尽管解码器架构在整体上具有优势,但在推理过程中,逐渐增长的键值(Key-Value, KV)缓存已成为主要的效率瓶颈,具体体现在内存消耗和数据传输带宽限制两个方面。

为了解决这些问题,我们提出了一种称为KV-Latent的范式。通过将键值向量的维度下采样到潜在空间,我们能够显著减少KV缓存的占用,同时提升推理速度,仅需少量额外训练,所需训练量不到预训练的1%。此外,我们通过修改频率采样机制增强了旋转位置嵌入(Rotary Positional Embedding,RoPE)在低维向量上的稳定性,从而避免了高频率引入的噪声,同时保留了位置衰减特性。

我们的实验,包括对具有分组查询注意力(Grouped Query Attention,GQA)的模型和不具有该机制的模型,均取得了令人满意的结果。最后,我们进行了对比实验,以研究分别减少键(Key)和值(Value)组件对模型性能的影响。我们的方法不仅能够构建更高效的语言模型系统,还为KV缓存节约和高效大型语言模型(LLMs)的发展开辟了新可能。

《SpindleKV: A Novel KV Cache Reduction Method Balancing Both Shallow and Deep Layers》

论文作者:唐子聪,史洛合,李祖超,齐保元,刘国明,张乐飞,王平

录用类型:主会长文

大型语言模型(LLMs)近年来取得了令人瞩目的成就。然而,KV缓存日益增长的内存消耗对推理系统构成了重大挑战。淘汰方法揭示了KV缓存中固有的冗余性,特别是在深层中展现了巨大的压缩潜力。然而,对浅层的KV缓存压缩仍显不足。

基于我们观察到的KV缓存具有高度相似性的特性,我们提出了一种全新的KV缓存压缩方法——SpindleKV(纺锤KV),该方法兼顾浅层与深层的平衡。在深层中,我们采用基于注意力权重的淘汰方法;而在浅层中,我们应用基于码本的替换方法,此方法通过相似性和合并策略进行学习。

此外,SpindleKV还解决了其他基于注意力的淘汰方法在处理分组查询注意力(Grouped-Query Attention, GQA)时面临的困境。在两个常见基准和三种不同LLMs上的实验表明,SpindleKV相比于基线方法实现了更好的KV缓存压缩效果,同时保持了相似甚至更优的模型性能。

《Browsing Like Human: A Multimodal Web Agent with Experiential Fast-and-Slow Thinking》

论文作者:罗皓灏,况佳杙,刘伟,沈颖,栾剑,邓扬

录用类型:主会长文

自动化Web导航旨在构建一个能够遵循用户指令,通过与网站交互完成诸如预订航班等任务的Web Agent,因其实用价值而受到越来越多的关注。尽管现有的Web Agent大多具备视觉感知、规划和记忆能力,但它们的推理过程仍然与人类认知存在差异。

在本研究中,我们研究人类的思维模式,以赋予代理更像人类的网页导航能力。为了解决这个问题,我们提出了一个新颖的多模态Web Agent框架 WebExperT,该框架旨在模拟人类“快慢思考”的规划过程,从而有效地分解复杂的用户指令。此外,WebExperT 利用经验式学习,通过从失败中反思,不断改进规划和决策结果。在 MIND2WEB 基准测试中的实验结果证明了 WebExperT 在监督和非监督环境下的卓越性能。

《More is not always better? Enhancing Many-Shot In-Context Learningwith Differentiated and Reweighting Objectives》

论文作者:张晓庆,吕昂,刘雨涵,Flood Sun,刘伟,栾剑,商烁,陈秀颖,严睿

录用类型:主会长文

代码和数据集:https://anonymous.4open.science/r/DrICL-E67E/

大型语言模型 (LLM) 在无需参数更新的情况下,在少样本上下文学习 (ICL) 中表现出色。然而,随着 ICL 演示次数增加,性能趋于停滞并最终下降。我们发现造成这种趋势的两个主要原因:次优的负对数似然 (NLL) 优化目标和增量数据噪声。

为了解决这些问题,我们引入了 DrICL,这是一种新颖的优化方法,它通过区分和重新加权目标来提升模型性能。一方面,DrICL 利用区分学习来优化 NLL 目标,确保多样本性能超越零样本水平。 另一方面,它利用强化学习带来的累积优势,动态调整多样本演示的权重,从而减轻噪声数据的影响。

考虑到缺乏具有多样化的多样本分布的多任务数据集,我们开发了 Many-Shot ICL Benchmark (ICL-50),这是一个包含 50 个任务的大规模基准测试,其中最多 8000 个 token 的序列中包含从 1 到 350 的样本数,可以用于微调和评估。实验结果表明,使用 DrICL 增强的 LLM 在各种任务的 multi-shot 设置中取得了显著的改进,包括域内和域外场景。我们发布代码和数据集,希望能够促进 many-shot ICL 的进一步研究。

《Demystifying Small Language Models for Edge Deployment》

论文作者:鲁真妍,李翔,蔡栋琪,衣容颉,刘方明,刘伟,栾剑,张曦文,Nicholas D. Lane,徐梦炜

录用类型:主会长文

小语言模型(SLMs)已经成为在资源受限设备(如智能手机和物联网终端)上部署大模型能力的一种有前景的解决方案。本文对包括 Microsoft Phi、Google Gemma 在内的 60 多个公开可获取的小语言模型进行了首次系统性研究。

研究发现,当前最先进的小语言模型在通用任务上已能够超越 7B 规模的大模型,充分展示了其在实际应用中的可行性。然而,SLMs 在上下文学习能力方面仍存在局限,其整体效率也仍有较大的优化空间。我们识别出多个关键的优化方向,包括:基于任务的动态路由机制、模型结构与硬件的协同设计,以及词表和 KV Cache压缩等。希望本工作能够为社区提供小语言模型在算法、模型设计、系统和硬件等多个层面的全景视角。

《DAC: A Dynamic Attention-aware Approach for Task-Agnostic Prompt Compression》

论文作者:赵乙,李祖超,赵海,齐保元,刘国明

录用类型:主会长文

任务无关提示压缩利用自然语言中的冗余性来减少计算开销,并在长上下文场景中提升提示的信息密度。现有方法主要依赖信息熵作为衡量指标来压缩词汇单元,旨在实现最小的信息损失。然而,这些方法忽略了两个关键方面:(i) 在算法层面上对注意力关键词的重视,以及 (ii) 压缩过程中信息熵的动态变化。

针对这些挑战,我们提出了一种面向任务无关提示压缩的动态注意力感知方法(DAC)。该方法有效融合了熵与注意力信息,能够在压缩过程中动态感知熵的变化,从而实现细粒度的提示压缩。在多个领域(包括LongBench、GSM8K和BBH)的广泛实验表明,DAC在各种任务和大型语言模型中均能持续带来稳健且显著的性能提升,充分证明了其有效性。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

小米大模型 ACL 2025 大模型 自然语言处理 人工智能
相关文章