香港理工大学团队提出Infi-MMR训练框架,通过三阶段训练策略,显著提升了小语言模型在多模态推理任务中的表现。该框架尤其专注于数学推理,在多个基准测试中达到SOTA水平,甚至超越了部分参数量更大的模型。Infi-MMR-3B模型在MathVerse和MathVista等测试中表现出色,逼近GPT-4o的水平,证明了其有效性。这一成果为小模型在多模态领域的应用提供了新的可能性。
💡 Infi-MMR框架的核心在于其“渐进式”的三阶段训练方法。第一阶段,通过高质量文本推理数据,强化模型的基础推理能力,解决多模态数据训练导致的推理能力退化问题。
🌉 第二阶段,基于第一阶段建立的基础推理能力,使用多模态问答对,并添加说明文字信息,逐步将推理能力转移到多模态领域。
🖼️ 第三阶段,为了更贴近现实场景,研究团队使用多模态问答对进一步训练模型,消除对文本说明的依赖,迫使模型直接从原始视觉输入中进行解释和推理,从而减少语言偏差。
➕ Infi-MMR框架创新性地引入了标题增强多模态数据,帮助模型在不同模态之间进行更可靠的推理,尤其是在数学推理方面取得了显著成果。
🏆 基于Qwen2.5-VL-3B训练的Infi-MMR-3B模型在多个多模态数学基准测试中达到SOTA水平,甚至优于部分80亿参数的大模型,数学推理能力逼近GPT-4o,证明了其在多模态推理领域的强大能力。
刘雅坤 2025-06-24 18:23 北京
在人工智能领域,大语言模型的推理能力已取得长足进步。

在人工智能领域,大语言模型的推理能力已取得长足进步。然而,当这一能力扩展到需要同时处理文本和图像的多模态场景时,研究者们遇到了棘手挑战——尤其是对于参数规模较小的多模态小语言模型,问题更为突出。香港理工大学杨红霞教授团队提出了一个名为 Infi-MMR 训练框架,通过创新的三阶段训练策略,成功激活了小语言模型的多模态推理潜能,并在多项数学推理基准测试中达到最强性能(SOTA,State of the Art)水平,甚至超越部分参数量更大的模型。
图丨论文作者柳泽宇、刘宇航和谢淙恺(来源:该团队)日前,相关论文以《Infi-MMR:基于课程学习的多模态小语言模型分阶段强化学习解锁多模态推理能力》(Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models)为题发表在预印本网站 arXiv[1]。香港理工大学科研助理柳泽宇和浙江大学硕士生刘宇航是共同第一作者,香港理工大学
杨红霞教授担任通讯作者。图丨相关论文(来源:arXiv)
该团队致力于将 DeepSeek-R1 在文本领域的基于规则强化学习的成果扩展到多模态领域,同时也致力于解决多模态强化学习中存在的问题。小语言模型本身参数量少,面临着以下三个难题:第一,模态推理数据的质量有待提高。基于规则的强化学习需要可验证的答案,然而大多数多模态任务侧重于标题、图像描述和视觉问题回答。此外,现有的多模态推理数据集主要处理简单任务(如计数),很少能同时提供复杂的推理问题和可验证的答案。第二,多模态大语言模型基本推理能力的退化。多模态大语言模型整合视觉和文本数据时,往往会削弱其基本推理能力,这种情况在小模型上表现得尤为明显。此外,跨模态融合的复杂性可能会破坏结构化推理,从而导致推理任务性能的下降。第三,复杂但不可靠的推理步骤。直接通过多模态数据进行强化学习训练的多模态大语言模型,往往会生成复杂的推理过程,但是这种推理步骤不仅十分冗长而且通常并不准确。图丨Infi-MMR 框架中不同训练阶段数据类型的利用(来源:arXiv)
Infi-MMR 框架的核心在于其独特的“渐进式”三阶段训练方法。第一个阶段为基础推理激活(Foundational Reasoning Activation),该阶段侧重于使用文本数据激发多模态模型的推理能力。
据了解,这一阶段不是直接用多模态数据,而是利用高质量的文本推理数据,通过强化学习来强化模型的基础推理能力。这种方法为模型的稳健逻辑推理做好了准备,解决了标准多模态大模型的一个关键限制——通过多模态数据训练导致的推理能力退化。第二阶段是跨模态推理适应(Cross-Modal Reasoning Adaptation)。基于第一阶段建立的基础推理能力,本阶段采用多模态问答对,并添加说明文字信息,逐步将这些能力转移到多模态领域。
第三阶段是多模态推理增强(Multimodal reasoning Enhancement)。为了更加符合现实世界场景,即缺乏图像描述的多模态问题,研究团队在第二阶段建立的基础上,使用多模态问答对进一步训练模型。通过消除对文本说明的依赖,这个阶段迫使模型直接从原始视觉输入中进行解释和推理,从而减少语言偏差,促进稳健的多模态推理。
图丨Infi-MMR 的整体框架(来源:arXiv)
值得关注的是,该团队创新性地引入了标题增强多模态数据(caption-augmented multimodal data),它能帮助模型把在文字领域的推理能力顺利转移到多模态领域,让模型在不同模态之间进行更可靠的推理。最后,他们使用 Infi-MMR 这一框架基于 Qwen2.5-VL-3B 的基础上训练出专注于数学推理的 Infi-MMR-3B 模型,并在多个多模态数学 benchmark 上达到了 SOTA。其中,在涵盖代数、几何等多领域的 MathVerse 测试集上取得 43.68% 的准确率,不仅超越同参数规模模型,甚至优于部分 80 亿参数的大模型;在考察综合推理能力的 MathVista 测试中达到 67.2%,较基线提升 3.8%。更引人注目的是,其数学推理能力已逼近专有模型 GPT-4o(MathVerse 39.4%)。 这些成绩不仅证明了 Infi-MMR 框架的有效性,也展示了模型在多模态领域推理能力的成功转移。此外,Infi-MMR-3B 在 MathVista 测试中也取得了 67.2% 的成绩,进一步验证了其在多模态数学推理能力上的优异表现。表丨不同多模态大语言模型在各类推理相关基准测试中的性能对比。其中,标红结果代表最佳表现,下划线标注的则为次优表现(来源:arXiv)
该团队表示,尽管这一模型专注于数学推理领域,但是这一推理能力也能够泛化到其他需要推理的领域,例如教育、医疗、自动驾驶等。一个有强推理能力的多模态模型,有望帮助人类解决多种相对复杂的问题。后续,他们将继续在多模态大模型领域内进行探索,让小模型也拥有强推理的能力。参考资料:1.https://arxiv.org/pdf/2505.23091运营/排版:何晨龙01/ 科学家用金属有机框架打造微纳机器人,开启高效降解甘油三酯新应用,能适应多种生物环境
02/ 大模型失控前兆:16款大模型为自保竟泄露机密,Anthropic紧急报告AI自主性暗藏风险
03/ 微软研发4D几何编码法,有望实现50个逻辑量子比特的创建和纠缠,让编译任何量子算法成为可能
04/ 北大团队制备高质量单晶薄膜,迁移率创纪录突破15.5cm²/V·s,为高性能有机电子器件发展注入新活力
05/ 大模型深度思考竟与物理相变“异曲同工”:科学家揭示“临界学习”奥秘,助力80亿参数模型攻克量子场论核心计算












阅读原文
跳转微信打开