原创 集智编辑部 2025-05-13 21:26 上海
摘要
构建能够通过多模态信号有效感知世界的通用模型一直是长期目标。当前的方法包括将单独预训练的组件进行整合,例如将视觉编码器连接到大型语言模型(LLMs)并继续进行多模态训练。尽管此类方法表现出显著的样本效率,但是否这种后期融合架构本质上更优越仍是一个悬而未决的问题。在本研究中,我们重新审视了原生多模态模型(native multimodal models)的架构设计——即从一开始就对所有模态进行训练的模型,并进行了广泛的规模缩放研究,涵盖了 457 个具有不同架构和训练混合比例的训练模型。我们的研究发现,后期融合架构并不比早期融合架构具有固有的优势,后者不依赖于图像编码器。相反,早期融合在参数数量较少的情况下表现出更强的性能,训练效率更高,也更易于部署。受早期融合架构出色性能的启发,我们表明引入专家混合(MoEs)能够使模型学习模态特定权重,从而显著提升性能。
关键词:标度律(Scaling Laws),原生多模态模型(Native Multimodal Models, NMMs),早期融合(Early Fusion),晚期融合(Late Fusion),混合专家(Mixture of Experts, MoEs)
论文题目:Scaling Laws for Native Multimodal Models
发表时间:2025年4月11日
近年来,多模态模型(Multimodal Models)因能同时处理图像、文本、语音等信号而成为研究热点。主流方法通常将预训练的单模态组件(如视觉编码器与语言模型)拼接为“晚期融合”(Late Fusion)架构,但其依赖独立模块的设计可能引入模态偏差,且难以动态分配算力。苹果公司与索邦大学的研究团队在最新研究中另辟蹊径,通过训练457个不同架构的原生多模态模型(NMMs),首次系统性揭示了多模态模型的标度律,挑战了传统认知。
重新审视早、晚期融合架构
重新审视早、晚期融合架构
传统晚期融合模型(如CLIP架构)需先通过视觉编码器处理图像,再将特征输入语言模型。而早期融合架构(Early Fusion)直接将原始图像块与文本统一输入单一Transformer,几乎不依赖模态专属参数。
研究团队发现:在相同计算预算下,两种架构的验证损失(Validation Loss)近乎一致,但早期融合在小规模模型(<3B参数)中表现更优(图1)。例如,1.6B参数的早期融合模型在图像描述任务上的损失比同规模晚期融合低3.2%,且训练速度提升15%(图2),说明早期融合具备更优的硬件亲和性与部署便捷性,无需维护多模块的兼容性。
图 1. 原生多模态模型的标度特性。 根据第3.1节的标度律研究,我们观察到:(1) 在相同计算预算 C(以FLOPs为单位)下训练时,早期融合和晚期融合模型提供的验证损失 L 表现相当;(2) 这种性能表现是通过参数数量 N 和训练标记数量 D 的不同权衡实现的,其中早期融合模型需要更少的参数;(3) 稀疏早期融合模型在给定FLOP预算下能获得更低的损失,但需要更多的训练标记。
图 2. 早期 vs 晚期:预训练效率。早期融合训练起来更快,消耗的内存也更少。
多模态模型的标度律:与LLM的相似之处
多模态模型的标度律:与LLM的相似之处
通过拟合模型参数(N)、训练数据量(D)与计算量(C)的关系,研究团队发现NMMs的标度率与纯文本大模型(LLM)高度相似:验证损失随计算量呈幂律下降(L ∝ C−0.049)。例如,模型参数量每增加10倍,损失降低约18%。值得注意的是,不同模态数据的标度系数存在差异:图像描述任务(L ∝ C−0.061)的优化速度显著快于文本任务(L ∝ C−0.042),这可能因视觉信号的信息密度更高(表 1)。
表 1. 原生多模态模型的标度律。我们报告了早期和晚期混合模型的标度定律结果。我们拟合了不同目标数据类型及其平均损失(AVG)的标度律。
稀疏模型与混合专家(MoE)的突破性优势
稀疏模型与混合专家(MoE)的突破性优势
为应对多模态数据的异质性,研究团队在早期融合中引入混合专家机制(MoE),允许模型动态分配专家网络处理不同模态。结果显示,MoE模型在相同推理成本下,性能显著超越密集模型(图3)。例如,1.6B参数的稀疏模型在图像描述任务上的损失比同规模密集模型低9.5%。
进一步分析发现,MoE的专家层呈现出明确的模态专业化:浅层和深层专家倾向处理单一模态,而中间层专家则负责跨模态融合(图4)。有趣的是,模态无关路由(Modality-Agnostic Routing)的表现优于人工预设的模态专属路由,说明模型能自主学习最优参数分配策略。
图 3. MoE vs Dense:标度训练flop。在标度训练tokens数量和模型大小时,我们比较了MoE和密集早期融合模型。MoEs在匹配活动参数数量时优于密集模型。
图 4. MoE专业化频率(specialization frequency)。
实践启示与未来方向
实践启示与未来方向
研究表明,早期融合架构在大多数场景下是更优选择,尤其在资源受限时优势显著。此外,数据混合比例对扩展规律影响微弱,这意味着开发者可灵活调整数据配比。不过,研究仍存在局限,实验限于图像-文本双模态,未探索更高分辨率输入对早期融合的影响。未来工作或将验证这些定律在视频、音频等复杂模态中的普适性。这一突破为多模态模型的架构设计与训练策略提供了全新视角,或推动更高效、轻量的通用AI系统诞生。
彭晨 | 编译
「人机协同的智能时代」读书会
集智俱乐部联合中国科学技术大学教授赵云波、华东师范大学副教授吴兴蛟两位老师共同发起「人机协同的智能时代」读书会。本次读书会将探讨:
人类智能和机器智能各自的优势有哪些?智能边界如何?如何通过更有效的标注策略和数据生成技术来解决数据稀缺问题?如何设计更加高效的人机协作系统,实现高效共赢的效果?如何提高机器决策的可解释性与透明性,确保系统的可信度?如何通过多模态协作融合不同感知通道,应对复杂的决策任务?
读书会计划从6月21日开始,每周六晚19:00-21:00进行,预计持续约8周。诚挚邀请领域内研究者、寻求跨领域融合的研究者加入,共同探讨。
详情请见:人类与机器的智慧碰撞:人机协同的智能时代读书会启动
推荐阅读
2. PRE 速递:流体网络关系:衰减规律遇见空间自组织、尺度不变性与控制标度
5. 探索者计划 | 集智俱乐部2025内容团队招募(全职&兼职)
6. 加入集智,玩转复杂,共创斑图!集智俱乐部线下志愿者招募
点击“阅读原文”,报名读书会