小米大模型团队 2025-05-16 17:01 北京
|本文受小米揭榜挂帅科研专项(Xiaomi Open-Competition Research Program)支持
以 LoRA 为代表的高效监督微调方法(Parameter-Effcient Fine-Tuning,PEFT)通过对少量模型参数进行训练,能够显著提升模型在特定任务或场景中的性能,广泛应用于以下场景:
垂直领域知识增强:如医疗、法律、金融等专业知识精深,准确度要求高的垂直领域。
特定任务优化:如客服对话、总结摘要、论文写作、情感分类、文本纠错等特定任务。
用户偏好适配:根据用户历史行为学习用户习惯、偏好等,更好地为用户服务。
LoRA 微调占用资源较少在云端训练已经得到广泛的应用,但是面向手机端侧场景依然有内存和算力的挑战。小米大模型团队希望更进一步,让 AI 学得更快、更省力,通过算法的创新,在更短的时间使用更少的“脑力”(内存和算力)达到好的训练效果。
为此小米提出了新的“高效学习术”,能让AI在手机等设备端训练时,进一步减少20%~40%内存占用,同时保持甚至提升学习效果。这意味着:
训练更快——AI能更高效地吸收新知识,缩短学习时间;
资源更省——降低对手机算力和内存的需求;
个性化定制更灵活——用户可以根据自己的需求,让 AI 快速掌握专属技能,比如定制私人助手、优化拍照算法,甚至训练一个专属于你个人风格的“ AI 小秘书”。
这项研究的突破性意义远不止于手机端应用,对所有类型的AI模型(文本生成,图像生成等)微调都具有启发意义。
01
论文&技术开源
此成果相关论文在同行评审阶段收到了一致正面的评价,最终成功被IJCAI 2025录用。IJCAI(International Joint Conference on Artificial Intelligence),中文官方名称为国际人工智能联合会议。
它是人工智能领域历史最悠久、影响力最大的顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类会议之一,近年来录取率低至 12%-20% 。此成果为一作学生在小米大模型团队实习期间产出,受小米揭榜挂帅—— 2025 科研专项支持,相关的论文、代码已经开源,欢迎大家交流讨论。
02
技术细节
▍技术背景问题
当前最先进的(state-of-the-art)大语言模型(Large Language Models, LLMs)通常基于 Transformer 架构,得益于大规模预训练,这类模型能够在各类通用任务中展现出卓越的泛化能力。然而,若要在特定任务上达到最佳性能,通常需要对这类预训练模型进行微调。而由于模型参数量巨大,微调过程需要消耗大量计算资源、存储空间和时间成本。
对整个大语言模型的所有参数进行微调(称为全参数微调)会产生极高的计算开销。为降低计算成本,研究者们提出了以低秩适应 LoRA [1] ,梯度投影 Galore [2] 为代表的微调方法。
Transformer 架构的核心组件是注意力机制,其关键在于查询矩阵、键矩阵
阵与值矩阵
三者之间的交互作用。高效微调需要谨慎选择超参数,这包括如何选择适合微调的权重类型以及优化学习率设置等方面。尽管一些经验性准则(如 LoRA 原文)探索了相同参数量下微调不同权重矩阵的表现,但相关理论分析仍然有限。
▍方法细节
根据传统统计学习理论的观点,性能可以定义为优化误差与泛化误差之和。
(1)在(泛化误差,内存友好性)方面,我们提出定理 1(信息论泛化界),证明在相同秩值(r)条件下,仅微调三不仅能达到与微调
相当的效果,甚至可能更优。这一选择在保持相同秩值的前提下减少了参数量,同时提升了泛化界限,并可能带来内存优势。
理论分析:
实验验证:
(2)在(优化效率,时间友好性)方面,我们探讨了注意力机制微调过程中的学习动态特性,并通过定理 2 证明:当微调过程中矩阵的学习率显著大于
矩阵时,注意力机制能实现更高效的特征学习。
理论分析:
实验验证:
(3)基于我们的实验与理论研究成果(1)和(2),可以开发出新型算法来提升微调过程的综合效能(例如存储效率与时间效率)。值得注意的是,我们提出的理论见解保持了正交兼容性,能够与不同微调方法协同结合,产生增效作用。
我们在全量微调,LoRA 和 DoRA [3] 等方法上验证了理论分析对微调算法改进的指导意义:
03
展望
未来,小米大模型团队将持续致力于端侧轻量级大模型相关技术的研发,不断完善每台设备的个体智能。通过优化算法和模型结构,我们将确保这些轻量级模型能够在有限的计算资源下实现准确、快速的响应,同时保持较低功耗。这不仅将提升用户体验,使智能设备更加贴近用户的生活需求,还能推动智能家居、智能穿戴、智能汽车等多个领域的创新和发展。
此外,小米还将加大对隐私保护技术的研发投入,确保用户数据的安全与隐私。通过本地处理数据,减少数据传输,小米的端侧大模型将进一步增强用户对个人信息安全的信任。团队还将探索更多个性化和自适应的技术,使设备能够更好地理解用户的行为习惯和偏好,提供更加个性化的服务。
小米大模型团队相信,通过不断的技术创新和优化,未来的智能设备将更加智能、更加贴心,为用户带来更加美好的生活体验。
部分参考文献
[1] Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. ICLR 2022.
[2] Jiawei Zhao, Zhenyu Zhang, Beidi Chen, Zhangyang Wang, Anima Anandkumar, and Yuandong Tian. Galore: Memory-efficient llm training by gradient low-rank projection. arXiv preprint arXiv:2403.03507, ICML 2024.
[3] Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, and Min-Hung Chen. Dora: Weight-decomposed lowrank adaptation. ICML 2024.
END