原生多模态模型的标度律：重新思考架构选择与训练效率

原创集智编辑部 2025-05-13 21:26 上海

摘要

构建能够通过多模态信号有效感知世界的通用模型一直是长期目标。当前的方法包括将单独预训练的组件进行整合，例如将视觉编码器连接到大型语言模型（LLMs）并继续进行多模态训练。尽管此类方法表现出显著的样本效率，但是否这种后期融合架构本质上更优越仍是一个悬而未决的问题。在本研究中，我们重新审视了原生多模态模型（native multimodal models）的架构设计——即从一开始就对所有模态进行训练的模型，并进行了广泛的规模缩放研究，涵盖了 457 个具有不同架构和训练混合比例的训练模型。我们的研究发现，后期融合架构并不比早期融合架构具有固有的优势，后者不依赖于图像编码器。相反，早期融合在参数数量较少的情况下表现出更强的性能，训练效率更高，也更易于部署。受早期融合架构出色性能的启发，我们表明引入专家混合（MoEs）能够使模型学习模态特定权重，从而显著提升性能。

关键词：标度律（Scaling Laws），原生多模态模型（Native Multimodal Models, NMMs），早期融合（Early Fusion），晚期融合（Late Fusion），混合专家（Mixture of Experts, MoEs）

论文题目：Scaling Laws for Native Multimodal Models
发表时间：2025年4月11日
论文地址：https://arxiv.org/abs/2504.07951

近年来，多模态模型（Multimodal Models）因能同时处理图像、文本、语音等信号而成为研究热点。主流方法通常将预训练的单模态组件（如视觉编码器与语言模型）拼接为“晚期融合”（Late Fusion）架构，但其依赖独立模块的设计可能引入模态偏差，且难以动态分配算力。苹果公司与索邦大学的研究团队在最新研究中另辟蹊径，通过训练457个不同架构的原生多模态模型（NMMs），首次系统性揭示了多模态模型的标度律，挑战了传统认知。

重新审视早、晚期融合架构

传统晚期融合模型（如CLIP架构）需先通过视觉编码器处理图像，再将特征输入语言模型。而早期融合架构（Early Fusion）直接将原始图像块与文本统一输入单一Transformer，几乎不依赖模态专属参数。

研究团队发现：在相同计算预算下，两种架构的验证损失（Validation Loss）近乎一致，但早期融合在小规模模型（<3B参数）中表现更优（图1）。例如，1.6B参数的早期融合模型在图像描述任务上的损失比同规模晚期融合低3.2%，且训练速度提升15%（图2），说明早期融合具备更优的硬件亲和性与部署便捷性，无需维护多模块的兼容性。

图 1. 原生多模态模型的标度特性。根据第3.1节的标度律研究，我们观察到：(1) 在相同计算预算 C（以FLOPs为单位）下训练时，早期融合和晚期融合模型提供的验证损失 L 表现相当；(2) 这种性能表现是通过参数数量 N 和训练标记数量 D 的不同权衡实现的，其中早期融合模型需要更少的参数；(3) 稀疏早期融合模型在给定FLOP预算下能获得更低的损失，但需要更多的训练标记。

图 2. 早期 vs 晚期：预训练效率。早期融合训练起来更快，消耗的内存也更少。

多模态模型的标度律：与LLM的相似之处

通过拟合模型参数（N）、训练数据量（D）与计算量（C）的关系，研究团队发现NMMs的标度率与纯文本大模型（LLM）高度相似：验证损失随计算量呈幂律下降（L ∝ C−0.049）。例如，模型参数量每增加10倍，损失降低约18%。值得注意的是，不同模态数据的标度系数存在差异：图像描述任务（L ∝ C−0.061）的优化速度显著快于文本任务（L ∝ C−0.042），这可能因视觉信号的信息密度更高（表 1）。

表 1. 原生多模态模型的标度律。我们报告了早期和晚期混合模型的标度定律结果。我们拟合了不同目标数据类型及其平均损失（AVG）的标度律。

稀疏模型与混合专家（MoE）的突破性优势

为应对多模态数据的异质性，研究团队在早期融合中引入混合专家机制（MoE），允许模型动态分配专家网络处理不同模态。结果显示，MoE模型在相同推理成本下，性能显著超越密集模型（图3）。例如，1.6B参数的稀疏模型在图像描述任务上的损失比同规模密集模型低9.5%。

进一步分析发现，MoE的专家层呈现出明确的模态专业化：浅层和深层专家倾向处理单一模态，而中间层专家则负责跨模态融合（图4）。有趣的是，模态无关路由（Modality-Agnostic Routing）的表现优于人工预设的模态专属路由，说明模型能自主学习最优参数分配策略。

图 3. MoE vs Dense：标度训练flop。在标度训练tokens数量和模型大小时，我们比较了MoE和密集早期融合模型。MoEs在匹配活动参数数量时优于密集模型。

图 4. MoE专业化频率（specialization frequency）。

实践启示与未来方向

研究表明，早期融合架构在大多数场景下是更优选择，尤其在资源受限时优势显著。此外，数据混合比例对扩展规律影响微弱，这意味着开发者可灵活调整数据配比。不过，研究仍存在局限，实验限于图像-文本双模态，未探索更高分辨率输入对早期融合的影响。未来工作或将验证这些定律在视频、音频等复杂模态中的普适性。这一突破为多模态模型的架构设计与训练策略提供了全新视角，或推动更高效、轻量的通用AI系统诞生。

彭晨 | 编译

「人机协同的智能时代」读书会

集智俱乐部联合中国科学技术大学教授赵云波、华东师范大学副教授吴兴蛟两位老师共同发起「人机协同的智能时代」读书会。本次读书会将探讨：

人类智能和机器智能各自的优势有哪些？智能边界如何？如何通过更有效的标注策略和数据生成技术来解决数据稀缺问题？如何设计更加高效的人机协作系统，实现高效共赢的效果？如何提高机器决策的可解释性与透明性，确保系统的可信度？如何通过多模态协作融合不同感知通道，应对复杂的决策任务？

读书会计划从6月21日开始，每周六晚19:00-21:00进行，预计持续约8周。诚挚邀请领域内研究者、寻求跨领域融合的研究者加入，共同探讨。