集智俱乐部 前天 22:32
原生多模态模型的标度律:重新思考架构选择与训练效率
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

苹果公司与索邦大学的研究团队深入研究原生多模态模型,通过训练457个不同架构的模型,揭示了多模态模型的标度律。研究发现,早期融合架构在参数较少的情况下表现更优,且训练效率更高。此外,引入混合专家机制(MoEs)能显著提升模型性能,为多模态模型的架构设计与训练策略提供了新视角。

💡 **早期融合架构的优势**:研究表明,在相同计算预算下,早期融合架构与晚期融合架构表现相当,但在小规模模型中(<3B参数)更优,例如,1.6B参数的早期融合模型在图像描述任务上的损失更低,且训练速度更快,更易于部署,无需维护多模块的兼容性。

📈 **多模态模型的标度律**:研究发现,多模态模型的标度律与纯文本大模型高度相似,验证损失随计算量呈幂律下降。不同模态数据的标度系数存在差异,图像描述任务的优化速度快于文本任务,这可能与视觉信号的信息密度更高有关。

🧠 **混合专家(MoE)的突破**:为应对多模态数据的异质性,研究团队在早期融合中引入混合专家机制(MoE)。MoE模型在相同推理成本下,性能显著超越密集模型。MoE的专家层呈现出明确的模态专业化,模型能自主学习最优参数分配策略。

原创 集智编辑部 2025-05-13 21:26 上海

摘要

构建能够通过多模态信号有效感知世界的通用模型一直是长期目标。当前的方法包括将单独预训练的组件进行整合,例如将视觉编码器连接到大型语言模型(LLMs)并继续进行多模态训练。尽管此类方法表现出显著的样本效率,但是否这种后期融合架构本质上更优越仍是一个悬而未决的问题。在本研究中,我们重新审视了原生多模态模型(native multimodal models)的架构设计——即从一开始就对所有模态进行训练的模型,并进行了广泛的规模缩放研究,涵盖了 457 个具有不同架构和训练混合比例的训练模型。我们的研究发现,后期融合架构并不比早期融合架构具有固有的优势,后者不依赖于图像编码器。相反,早期融合在参数数量较少的情况下表现出更强的性能,训练效率更高,也更易于部署。受早期融合架构出色性能的启发,我们表明引入专家混合(MoEs)能够使模型学习模态特定权重,从而显著提升性能。

关键词:标度律(Scaling Laws),原生多模态模型(Native Multimodal Models, NMMs),早期融合(Early Fusion),晚期融合(Late Fusion),混合专家(Mixture of Experts, MoEs)

论文题目:Scaling Laws for Native Multimodal Models

发表时间:2025年4月11日

论文地址:https://arxiv.org/abs/2504.07951

近年来,多模态模型(Multimodal Models)因能同时处理图像、文本、语音等信号而成为研究热点。主流方法通常将预训练的单模态组件(如视觉编码器与语言模型)拼接为“晚期融合”(Late Fusion)架构,但其依赖独立模块的设计可能引入模态偏差,且难以动态分配算力。苹果公司与索邦大学的研究团队在最新研究中另辟蹊径,通过训练457个不同架构的原生多模态模型(NMMs),首次系统性揭示了多模态模型的标度律,挑战了传统认知。

重新审视早、晚期融合架构

传统晚期融合模型(如CLIP架构)需先通过视觉编码器处理图像,再将特征输入语言模型。而早期融合架构(Early Fusion)直接将原始图像块与文本统一输入单一Transformer,几乎不依赖模态专属参数。

研究团队发现:在相同计算预算下,两种架构的验证损失(Validation Loss)近乎一致,但早期融合在小规模模型(<3B参数)中表现更优(图1)。例如,1.6B参数的早期融合模型在图像描述任务上的损失比同规模晚期融合低3.2%,且训练速度提升15%(图2),说明早期融合具备更优的硬件亲和性与部署便捷性,无需维护多模块的兼容性。

图 1. 原生多模态模型的标度特性。 根据第3.1节的标度律研究,我们观察到:(1) 在相同计算预算 C(以FLOPs为单位)下训练时,早期融合和晚期融合模型提供的验证损失 L 表现相当;(2) 这种性能表现是通过参数数量 N 和训练标记数量 D 的不同权衡实现的,其中早期融合模型需要更少的参数;(3) 稀疏早期融合模型在给定FLOP预算下能获得更低的损失,但需要更多的训练标记。

图 2. 早期 vs 晚期:预训练效率。早期融合训练起来更快,消耗的内存也更少。

多模态模型的标度律:与LLM的相似之处

通过拟合模型参数(N)、训练数据量(D)与计算量(C)的关系,研究团队发现NMMs的标度率与纯文本大模型(LLM)高度相似:验证损失随计算量呈幂律下降(L ∝ C−0.049)。例如,模型参数量每增加10倍,损失降低约18%。值得注意的是,不同模态数据的标度系数存在差异:图像描述任务(L ∝ C−0.061)的优化速度显著快于文本任务(L ∝ C−0.042),这可能因视觉信号的信息密度更高(表 1)。

表 1. 原生多模态模型的标度律。我们报告了早期和晚期混合模型的标度定律结果。我们拟合了不同目标数据类型及其平均损失(AVG)的标度律。

稀疏模型与混合专家(MoE)的突破性优势

为应对多模态数据的异质性,研究团队在早期融合中引入混合专家机制(MoE),允许模型动态分配专家网络处理不同模态。结果显示,MoE模型在相同推理成本下,性能显著超越密集模型(图3)。例如,1.6B参数的稀疏模型在图像描述任务上的损失比同规模密集模型低9.5%。

进一步分析发现,MoE的专家层呈现出明确的模态专业化:浅层和深层专家倾向处理单一模态,而中间层专家则负责跨模态融合(图4)。有趣的是,模态无关路由(Modality-Agnostic Routing)的表现优于人工预设的模态专属路由,说明模型能自主学习最优参数分配策略。

图 3. MoE vs Dense:标度训练flop。在标度训练tokens数量和模型大小时,我们比较了MoE和密集早期融合模型。MoEs在匹配活动参数数量时优于密集模型。

图 4. MoE专业化频率(specialization frequency)。

实践启示与未来方向

研究表明,早期融合架构在大多数场景下是更优选择,尤其在资源受限时优势显著。此外,数据混合比例对扩展规律影响微弱,这意味着开发者可灵活调整数据配比。不过,研究仍存在局限,实验限于图像-文本双模态,未探索更高分辨率输入对早期融合的影响。未来工作或将验证这些定律在视频、音频等复杂模态中的普适性。这一突破为多模态模型的架构设计与训练策略提供了全新视角,或推动更高效、轻量的通用AI系统诞生。

彭晨 | 编译

「人机协同的智能时代」读书会

集智俱乐部联合中国科学技术大学教授赵云波、华东师范大学副教授吴兴蛟两位老师共同发起「人机协同的智能时代」读书会。本次读书会将探讨:

人类智能和机器智能各自的优势有哪些?智能边界如何?如何通过更有效的标注策略和数据生成技术来解决数据稀缺问题?如何设计更加高效的人机协作系统,实现高效共赢的效果?如何提高机器决策的可解释性与透明性,确保系统的可信度?如何通过多模态协作融合不同感知通道,应对复杂的决策任务?

读书会计划从6月21日开始,每周六晚19:00-21:00进行,预计持续约8周。诚挚邀请领域内研究者、寻求跨领域融合的研究者加入,共同探讨。

详情请见:人类与机器的智慧碰撞:人机协同的智能时代读书会启动

推荐阅读

1. 数据驱动的自相似性发现:解锁复杂物理现象中的标度律

2. PRE 速递:流体网络关系:衰减规律遇见空间自组织、尺度不变性与控制标度

3. 无量纲学习:机器学习识别无量纲数与标度律

4. 游戏化科研——让我们突破内卷、共研涌现

5. 探索者计划 | 集智俱乐部2025内容团队招募(全职&兼职)

6. 加入集智,玩转复杂,共创斑图!集智俱乐部线下志愿者招募

点击“阅读原文”,报名读书会

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态模型 早期融合 标度律 混合专家
相关文章