小米技术 05月16日 18:51
IJCAI 2025 | 小米 & 人大揭秘手机端侧大模型“高效学习术”,所需训练内存节约 40%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

小米大模型团队在端侧AI高效微调技术上取得重要进展,通过创新的算法,显著减少了手机等设备端AI训练的内存占用,同时保持甚至提升了学习效果。这项研究成果被IJCAI 2025录用,并已开源相关论文和代码。该技术能够让AI学习更快、更省资源,实现个性化定制,例如定制私人助手、优化拍照算法等。这项突破对AI模型微调具有重要意义,推动智能设备更加智能、贴近用户生活。

💡 **技术背景与挑战:** 传统全参数微调消耗大量计算资源,而小米团队关注以LoRA为代表的高效微调方法(PEFT),旨在解决端侧场景的内存和算力限制,提升模型在特定任务上的表现,例如垂直领域知识增强、特定任务优化、用户偏好适配等。

🔬 **核心技术突破:** 小米团队提出的“高效学习术”,在保持甚至提升学习效果的同时,能够进一步减少20%~40%的内存占用。研究成果已被IJCAI 2025录用,论文和代码已开源。

✨ **创新方法与理论:** 团队从统计学习理论出发,通过信息论泛化界和学习率动态特性分析,提出了改进微调算法的新方法。实验验证表明,在相同秩值条件下,仅微调某些参数能达到与全量微调相当的效果,并提升了泛化界限。同时,当微调过程中矩阵的学习率显著大于矩阵时,注意力机制能实现更高效的特征学习。

🚀 **应用前景与展望:** 该技术将推动端侧轻量级大模型的发展,提升用户体验,并促进智能家居、智能穿戴、智能汽车等领域的发展。小米还将加大对隐私保护技术的研发投入,确保用户数据的安全与隐私。

小米大模型团队 2025-05-16 17:01 北京

|本文受小米揭榜挂帅科研专项(Xiaomi Open-Competition Research Program)支持

以 LoRA 为代表的高效监督微调方法(Parameter-Effcient Fine-Tuning,PEFT)通过对少量模型参数进行训练,能够显著提升模型在特定任务或场景中的性能,广泛应用于以下场景:

LoRA 微调占用资源较少在云端训练已经得到广泛的应用,但是面向手机端侧场景依然有内存和算力的挑战。小米大模型团队希望更进一步,让 AI 学得更快、更省力,通过算法的创新,在更短的时间使用更少的“脑力”(内存和算力)达到好的训练效果。

为此小米提出了新的“高效学习术”,能让AI在手机等设备端训练时,进一步减少20%~40%内存占用,同时保持甚至提升学习效果。这意味着:

这项研究的突破性意义远不止于手机端应用,对所有类型的AI模型(文本生成,图像生成等)微调都具有启发意义。

01

论文&技术开源

此成果相关论文在同行评审阶段收到了一致正面的评价,最终成功被IJCAI 2025录用。IJCAI(International Joint Conference on Artificial Intelligence),中文官方名称为国际人工智能联合会议。 

它是人工智能领域历史最悠久、影响力最大的顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类会议之一,近年来录取率低至 12%-20% 。此成果为一作学生在小米大模型团队实习期间产出,受小米揭榜挂帅—— 2025 科研专项支持,相关的论文、代码已经开源,欢迎大家交流讨论。

02

技术细节

技术背景问题

当前最先进的(state-of-the-art)大语言模型(Large Language Models, LLMs)通常基于 Transformer 架构,得益于大规模预训练,这类模型能够在各类通用任务中展现出卓越的泛化能力。然而,若要在特定任务上达到最佳性能,通常需要对这类预训练模型进行微调。而由于模型参数量巨大,微调过程需要消耗大量计算资源、存储空间和时间成本。

对整个大语言模型的所有参数进行微调(称为全参数微调)会产生极高的计算开销。为降低计算成本,研究者们提出了以低秩适应 LoRA [1] ,梯度投影 Galore [2] 为代表的微调方法。

Transformer 架构的核心组件是注意力机制,其关键在于查询矩阵键矩阵与值矩阵三者之间的交互作用。高效微调需要谨慎选择超参数,这包括如何选择适合微调的权重类型以及优化学习率设置等方面。尽管一些经验性准则(如 LoRA 原文)探索了相同参数量下微调不同权重矩阵的表现,但相关理论分析仍然有限。

方法细节

根据传统统计学习理论的观点,性能可以定义为优化误差与泛化误差之和。

(1)在(泛化误差,内存友好性)方面,我们提出定理 1(信息论泛化界),证明在相同秩值(r)条件下,仅微调三不仅能达到与微相当的效果,甚至可能更优。这一选择在保持相同秩值的前提下减少了参数量,同时提升了泛化界限,并可能带来内存优势。

(2)在(优化效率,时间友好性)方面,我们探讨了注意力机制微调过程中的学习动态特性,并通过定理 2 证明:当微调过程中矩阵的学习率显著大于矩阵时,注意力机制能实现更高效的特征学习。

(3)基于我们的实验与理论研究成果(1)和(2),可以开发出新型算法来提升微调过程的综合效能(例如存储效率与时间效率)。值得注意的是,我们提出的理论见解保持了正交兼容性,能够与不同微调方法协同结合,产生增效作用。

我们在全量微调,LoRA 和 DoRA [3] 等方法上验证了理论分析对微调算法改进的指导意义:

03

展望

未来,小米大模型团队将持续致力于端侧轻量级大模型相关技术的研发,不断完善每台设备的个体智能。通过优化算法和模型结构,我们将确保这些轻量级模型能够在有限的计算资源下实现准确、快速的响应,同时保持较低功耗。这不仅将提升用户体验,使智能设备更加贴近用户的生活需求,还能推动智能家居、智能穿戴、智能汽车等多个领域的创新和发展。

此外,小米还将加大对隐私保护技术的研发投入,确保用户数据的安全与隐私。通过本地处理数据,减少数据传输,小米的端侧大模型将进一步增强用户对个人信息安全的信任。团队还将探索更多个性化和自适应的技术,使设备能够更好地理解用户的行为习惯和偏好,提供更加个性化的服务。

小米大模型团队相信,通过不断的技术创新和优化,未来的智能设备将更加智能、更加贴心,为用户带来更加美好的生活体验。

部分参考文献

[1] Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. ICLR 2022.

[2] Jiawei Zhao, Zhenyu Zhang, Beidi Chen, Zhangyang Wang, Anima Anandkumar, and Yuandong Tian. Galore: Memory-efficient llm training by gradient low-rank projection. arXiv preprint arXiv:2403.03507, ICML 2024.

[3] Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, and Min-Hung Chen. Dora: Weight-decomposed lowrank adaptation. ICML 2024.

END

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

小米大模型 AI微调 端侧AI 高效学习
相关文章