PaperWeekly 03月07日 21:06
ICLR 2025 | 阿里等提出LLaVA-MoD,用MoE+蒸馏训练轻量化多模态大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

LLaVA-MoD 提出了一种通过知识蒸馏,从大型多模态语言模型(l-MLLM)高效训练小型多模态语言模型(s-MLLM)的方法。该方案通过集成稀疏专家混合(MoE)架构,优化小模型的网络结构,并提出 Dense-to-Sparse 蒸馏框架,结合模仿蒸馏+偏好蒸馏,实现全面的知识迁移。实验表明,该方案仅用 0.3% 的数据和 23% 的激活参数,就实现了 2B 小模型综合性能超越 7B 大模型 8.8%,并在幻觉检测任务中反超教师模型,为智能终端和边缘计算等场景提供了高性价比的解决方案。

💡LLaVA-MoD 通过集成稀疏的专家混合(MoE)架构,优化了小型多模态语言模型(s-MLLM)的网络结构,在增加模型容量的同时实现高效的训练和推理过程。

📚 LLaVA-MoD 提出了一个渐进式蒸馏框架,包含模仿蒸馏和偏好蒸馏两个阶段。模仿蒸馏又分为密集到密集蒸馏(学习通用知识)和密集到稀疏蒸馏(学习专业知识)。偏好蒸馏则基于教师 MLLM 的偏好知识,指导学生 MLLM 生成更准确合理的响应,减少幻觉。

🎯 实验结果表明,LLaVA-MoD 在多模态理解、推理和幻觉消除方面表现出色,甚至在幻觉消除方面超过了教师模型,证明了其有效性。

让你更懂AI的 2025-03-07 12:40 北京

本文提出了 LLaVA-MoD,用于通过知识蒸馏从 l-MLLM 中高效训练 s-MLLM。



简介

本文提出轻量化多模态大模型 LLaVA-MoD,通过集成稀疏的专家混合(MoE)架构,优化小模型的网络结构,并提出 Dense-to-Sparse 蒸馏框架,结合两阶段蒸馏策略(模仿蒸馏+偏好蒸馏),实现全面的知识迁移。


该方案仅用 0.3% 数据和 23% 激活参数,即实现 2B 小模型综合性能超越 7B 大模型 8.8%,并在幻觉检测任务反超教师模型。


其研究思路与 Deepseek-R1 不谋而合,均聚焦 Dense 与 Sparse MoE 间的知识蒸馏架构,但 LLaVA-MoD 创新采用逆向路径(Dense-to-Sparse),相较同类方案参数效率提升 3.2 倍,训练数据消耗降低 99.7%,动态平衡模型效率与表达能力的同时,为智能终端、边缘计算等场景提供高性价比解决方案,相关代码已开源。

论文题目:

LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation

作者单位:

阿里巴巴,香港中文大学,UCSD,北京航空航天大学

论文链接:

https://openreview.net/pdf?id=uWtLOy35WD

代码链接:

https://github.com/shufangxun/LLaVA-MoD



引言

多模态大型语言模型(MLLM)通过将视觉编码器集成到大型语言模型(LLM)中,在多模态任务上取得了显著成果。然而,这些大型模型的庞大规模和广泛的训练数据带来了重大的计算挑战。例如,LLaVA-NeXT 的最大版本使用 Qwen-1.5-110B 作为基础,在 128 个 H800 GPU 上训练了 18 小时。


此外,庞大的参数需求需要高性能硬件支持,导致推理速度缓慢,从而增加了在现实世界中,特别是在移动设备上进行部署的难度。因此,探索一种在性能与效率之间取得平衡的小型 MLLM(s-MLLM)成为当前研究的关键挑战。


s-MLLM 的研究主要集中在数据收集和过滤机制上,以确保高质量的训练数据。虽然这些方法有效,但它们固有地限制了模型的容量。随着开源 MLLM 的涌现,利用大型 MLLM(l-MLLM)作为教师,通过蒸馏其丰富知识到 s-MLLM,成为一种可行的研究方向。


然而,在 MLLM 中实施知识蒸馏是一个全新的尝试。本文将重点关注两个主要挑战:首先,如何设计一种轻量级架构,以保持强大的学习和表达能力,使学生模型能够有效吸收来自教师模型的复杂知识;其次,如何高效且全面地将这种知识从教师模型转移到学生模型。为此,我们提出了 LLaVA-MoD。



方案

本文提出了 LLaVA-MoD,通过混合专家(MoE)和知识蒸馏(KD)来应对这些挑战,包括两个主要组成部分:


1. s-MLLM 架构设计:如图 1 所示,设计了一个稀疏的 s-MLLM 以平衡性能和参数,能够高效学习多样性复杂知识。


2. 蒸馏机制:如图 2 所示,设计了一个渐进式蒸馏框架,用于将知识从 l-MLLM 传递给稀疏的 s-MLLM,包含两个阶段:模仿蒸馏和偏好蒸馏。

3.1 稀疏架构设计

▲ 图1. s-MLLM 的稀疏化


如图 1 所示,s-MLLM 包含三个主要组件:视觉编码器(Vision Encoder)、大型语言模型(LLM)和视觉语言适配器(VL Adaptor)。构建 s-MLLM 的原则是保持 Vision Encoder 和 VL Adaptor 不变,同时引入混合专家(MoE)架构,将 LLM 从稠密型转化为稀疏型。


具体而言,我们通过稀疏升采样(sparse upcycling)将多个前馈网络(FFN)复制为专家模块。此外,增加了一个线性层作为路由器,以动态预测专家分配的概率,从而激活合适的专家。在训练和推理阶段,专家模块能够以动态和稀疏的方式被激活,从而在增加模型容量的同时实现高效的训练和推理过程。

3.2 渐进式蒸馏

▲ 图2. LLaVA-MoD 的渐进蒸馏


渐进蒸馏包括两个不同的阶段,如图 2,即模拟蒸馏和偏好蒸馏。在模仿蒸馏阶段,学生 MLLM 模拟教师 MLLM 的通用和专家知识。在偏好蒸馏阶段,学生 MLLM 基于教师 MLLM 的偏好知识,以进一步优化其输出并减少幻觉。

3.2.1 模仿蒸馏

由于教师 MLLM 的知识丰富且复杂,学生 MLLM 难以一步掌握,因此我们将知识分解为通用知识和专业知识,分别进行密集到密集蒸馏和密集到稀疏蒸馏,以将这两个方面的知识传递给学生 MLLM。


3.2.2 偏好蒸馏

在这一阶段,我们基于教师 MLLM 中的偏好知识,指导学生 MLLM 生成不仅准确而且合理的响应,这对于减少幻觉至关重要。偏好蒸馏受到离散描述偏好优化(DPO)进展的启发,将教师 MLLM 视为参考模型,发挥关键作用,因为它提供了“好”和“坏”的见解,从而为学生模型建立一个基本参考。


具体而言,训练目标是优化学生模型,使其在区分正面和负面响应时,为正面响应分配比教师模型更高的概率,同时为负面响应分配比教师模型更低的概率。



实验结果

我们采用了成熟的 “ViT-MLP-LLM” 架构来证明 LLaVA-MoD 的有效性。在模拟蒸馏中,使用 2.4M 通用 captioning 和对话样本来学习教师 MLLM 的通用知识,以及 1.4M 多任务数据,包括 VQA、文档、科学和 OCR,以学习教师 MLLM 的专业知识。


在偏好蒸馏中,使用 8W 偏好样本来学习教师偏好知识。评估 benchmark 包括多模态理解、推理和幻觉。


多模态理解和推理:表 21 表明,LLaVA-MoD 在以理解为导向的基准测试上表现出色。在 2B 规模和 1B 规模的模型中,它分别取得了最先进的平均结果。


▲ 表1. 理解知识能力

幻觉消除:如表 2 所示,LLaVA-MoD 在减轻幻觉方面表现出色,甚至超过了其教师模型。这可以归因于两个方面:


首先,通过为正响应分配更高的概率,偏好蒸馏鼓励学生模型专注于提供正确和相关的信息。


其次,通过为负响应分配较低的概率,偏好蒸馏 discourages 错误或不实的信息。利用教师模型作为参考调整响应概率,这种优化使学生模型更准确、可靠地处理幻觉问题,从而超过了教师模型。

▲ 表2: 幻觉消除能力



结论

本文提出了 LLaVA-MoD,用于通过知识蒸馏从 l-MLLM 中高效训练 s-MLLM。该框架解决了 MLLM 蒸馏的两个关键挑战:使用 MoE 设计增强 s-MLLM 架构的效率和表达能力平衡,并实现了一种渐进式知识转移策略。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



?


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

·

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LLaVA-MoD 多模态学习 知识蒸馏 MoE
相关文章