52CV 2025-06-07 11:03 江苏
首次实现与 o3 类似的用图像进行思考的能力,并且代码已经开源!
关注公众号,发现CV技术之美
作为多模态推理领域的重要突破,OpenAI 的 o3 模型首次实现将图像直接融入推理过程,突破了传统文字思维链的局限 ,成为多模态推理新的里程碑。但是如何赋予模型这一能力的技术细节尚未披露。
因此,小红书联合西安交通大学,采用端到端强化学习,在完全不依赖监督微调(SFT)的前提下,激发了大模型“以图深思”的潜能,构建出多模态深度思考模型 DeepEyes,首次实现了与 o3 类似的用图像进行思考的能力,并已同步开源相关技术细节,让“用图像思考”不再是 OpenAI 专属。
论文标题:DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning
论文链接:https://arxiv.org/abs/2505.14362
01 用图像进行思考
近期,受到R1的启发,不少多模态模型采用 “以文本为核心” 的思考模式,即 “先看后想”—— 模型先对图像进行观察,再通过纯文本推理来解决复杂的多模态问题。然而,这种方法存在显著局限:一旦进入推理阶段,模型无法“回看图像”来补充或验证细节信息,容易导致理解偏差或信息缺失。
与之相比,更高效的多模态思考方式应为 “边看边想”——模型在推理过程中能够动态地调用图像信息,通过视觉与语言的交替交互,强化对细节的感知与理解。这种将图像深度融入思考过程的方式,不仅提升了模型应对复杂任务的灵活性,更显著增强了其多模态理解与推理能力。
我们先简单感受一下 DeepEyes 是如何结合图像进行推理的!
为直观展现 DeepEyes 的多模态推理实力,我们采用 OpenAI o3 官方评测中的同组图像开展测试。当用户提出问题「What is written on the sign?」(牌子上写了什么?),DeepEyes 展现出强大的“用图像思考”的能力,整个过程可分为三步:
第一步:全局视觉捕捉
模型快速扫描图像,凭借卓越的视觉感知系统,迅速定位画面中的矩形牌子区域,并精准判定其为文字信息的关键载体。
第二步:智能工具协同
鉴于原图中文字区域分辨率较低,模型自主决策调用图像缩放工具,生成边界框并裁剪放大目标区域,使内容清晰可辨。
第三步:细节推理识别
在清晰图像的基础上,模型深度融合视觉特征提取与文本语义推理能力,准确识别并输出牌子上的文字:「Ochsner URGENT CARE。」
值得关注的是,该全流程完全由模型内部自主完成,无需借助任何外部 OCR 工具,真正实现了从图像定位、内容变换到语义识别的原生闭环推理,充分展示了 DeepEyes 强大的 “看图思考” 实力。
02 背景介绍
视觉语言模型(VLMs)借助长思维链(CoT)实现多模态深度推理,但仍以文本推理为主,思维过程局限于语言模态。人类则自然融合视觉与认知进行图像化思考,辅助精准决策。虽有研究尝试将视觉信息融入思维链推理,但模块化设计存在性能不足问题。OpenAI 的 o3 模型将视觉信息作为动态元素整合进思维链,实现类似人类 “用图像思考”,突破语言模态限制。它自然交织文本思维链与图像操作工具,为计算扩展提供新思路,是多模态推理的重要突破,但技术细节尚未开源。
因此,我们提出了多模态大语言模型 DeepEyes,通过端到端强化学习自然涌现 “用图像思考” 能力,无需依赖独立的专用模型专用模型及监督微调(SFT)。DeepEyes将视觉定位能力集成于图像缩放工具中,使其能够主动从原始图像中收集信息,实现了视觉与文本推理深度融合的交织多模态思维链(iMCoT)。
我们的主要贡献包括:
基于端到端强化学习,激励并增强模型 ”用图像思考“的能力,实现了视觉与文本推理无缝融合,摆脱了冷启动监督微调(SFT)及外部独立专用模型的依赖。
为更有效地促进模型的推理行为,我们结合了两种策略:面向工具使用的数据选择机制,以及工具使用奖励策略。实验结果表明,这两个策略均对iMCoT的发展产生了显著推动作用。
我们揭示了iMCoT在强化学习训练过程中的演变动态:工具调用行为从初始的探索阶段逐步发展至高效精准的工具利用阶段。此外,我们还观察到了视觉搜索、比较和验证等多种推理模式。
03 方法
3.1 模型细节
DeepEyes 架构与传统多模态推理模型相似,但在推理流程中引入 “自驱动视觉聚焦” 机制。推理初始,模型基于文本构建初步思维链(如判断 “手机与背包位置关系” 时,生成 “需定位物体” 的内部推理)。随后,模型根据推理需求判断是否调用图像辅助 —— 若问题涉及小物体、模糊区域等细节,会自主生成边界框裁剪关键区域(如手机和背包位置),将裁剪图像作为新视觉证据自回归输入模型,与文本推理融合驱动后续精准推理,增强视觉上下文感知能力。
与以往基于工作流程或纯文本推理的研究相比,我们的 iMCoT 具有以下显著优势:
训练简洁性。仅需问答对即可完成训练,无需依赖难以获取的监督微调(SFT)数据,大幅降低数据收集复杂度。
更强的泛化能力。通过强化学习动态学习跨任务最优推理流程,突破任务特定的人工设计约束,适应新任务能力显著提升。
统一端到端优化。端到端训练实现组件联合优化,避免传统方法中组件单独优化导致的性能次优问题,确保全局性能最优。
深度多模态融合。自然交织视觉与文本信息,实现视觉元素与文本推理无缝结合,支持更精准的感知决策。
原生工具调用能力。"用图像思考"作为模型的原生能力,可直接优化工具利用的效率与准确性,突破传统推理范式限制。
3.2 端到端强化学习
在多模态环境中,稀疏且以结果为导向的奖励信号对于引导视觉语言模型进行有效推理和决策至关重要。由于中间视觉动作缺乏步骤级监督,我们设计了一种基于最终结果质量和条件性工具使用的奖励公式来评估推理轨迹。
我们的奖励由三个核心组件构成:准确性奖励、格式奖励 和条件性工具使用奖励 。准确性奖励评估最终答案的正确性,格式奖励对结构混乱的输出实施惩罚,而工具使用奖励则仅在两个条件同时满足时触发:模型生成正确答案,且在推理过程中至少调用一次工具。
形式上,给定推理轨迹 τ,总奖励定义为:
我们发现,直接对模型的工具使用行为进行奖励是促进感知驱动推理的关键,且将工具奖励与正确结果绑定的设计至关重要。这种条件性奖励机制鼓励模型在工具能实质性助力任务完成时进行有意义的调用,而非将其作为随意或冗余的操作。
3.3 训练数据
我们的数据收集遵循三个基本原则:
(1) 多样化的任务和图像分布:收集多类型数据增强 iMCoT 泛化能力;
(2) 工具有效性:聚焦使用工具可显著提升准确性的场景;
(3) 推理能力提升:精选能强化模型推理的数据。
因此,我们的训练数据集由三个部分组成:
(1) 细粒度数据:选自 V∗训练集,含高分辨率图像与细节感知问题,最大化工具效用;
(2) 图表数据:来自 ArxivQA,含合成图表图形,丰富视觉元素多样性;
(3) 推理数据:整合 ThinkLite-VL 数据集,拓宽任务范围并强化推理能力。
我们提出了一种以工具使用为导向的数据选择策略,包含四个关键步骤:
(1) 难度管理:用 Qwen2.5-VL-7B 为每个问题生成 8 个回答评估问题难度,排除准确率 0 或 1 的样本。
(2) 问题格式构建:将原始问题转为开放式,剔除无法可靠转换的问题。
(3) 可验证性验证:过滤答案错误或无法正确验证的数据。
(4) 工具整合促进:优先选择调用工具可显著提升信息增益的样本,聚焦单轮回答错误但经工具辅助能纠正的实例(图表数据无需此步骤,推理数据保持原始形式)。
通过这种全面的选择策略,我们精心策划了一个高质量数据集,专门针对开发和增强工具感知视觉推理能力进行了优化。
04 实验
4.1 模型性能
我们在高分辨率数据集上和之前的工作进行比较,我们的 DeepEyes 在视觉搜索任务中展现出领先优势。在 V* Bench 上取得了 90.1 的准确率,在 HR-Bench 上也大幅超越现有的基于工作流的方法,在 4K 和 8K 测试集上分别获得了 75.1 和 72.6 的性能。另外,DeepEyes-7B 模型在视觉搜索任务中显出高于Qwen-VL 32B模型,这也进一步说明了构建用图像思考能力的必要性。
此外,DeepEyes 在视觉定位、幻觉以及数学推理任务上也优于之前的模型,证明了我们的 iMCoT 的有效性。
4.2 训练动态
为剖析端到端强化学习中模型与工具的交互演变,我们对其行为路径展开分析,发现工具使用经历三个阶段,每个阶段都反映了工具与推理能力的不同整合水平。
阶段 1:初始工具探索期(步骤 0 - 20)在学习初期,模型仅根据系统提示被动调用工具,缺乏明确的使用策略。这一阶段特征鲜明:工具调用频率与响应长度均显著增加,表明模型处于纯粹的探索行为模式。尽管工具使用频繁,但较低的定位准确了反映出模型未能有效关联检索信息与视觉上下文。模型主要通过试错方式,在没有外部引导的情况下探索工具功能。值得注意的是,在步骤8至20期间,随着模型掌握基本工具技能,响应长度开始大幅减少,冗长的图像描述和工具意图陈述也逐渐精简。
阶段 2:高频工具使用期(步骤 20 - 45)进入第二阶段,模型开始积极频繁地调用工具,试图通过最大化工具使用来提升答案正确性和获取奖励。这种"广泛搜索"策略在所有关键性能指标上带来显著提升,包括定位和回答的准确率。较长的响应文本和高频的工具调用表明,模型选择将视觉推理过程外部化,而非依赖内部推理能力。这一阶段反映了模型已开始认识到工具的价值,但尚未形成高效的使用模式,处于工具认知的过渡期。
阶段 3:高效工具整合期(步骤 45 - 80)在最终阶段,模型转向更具选择性和精确性的工具使用方式。它能够在维持高定位精度和任务准确率的同时,显著降低工具调用频率和响应长度。这表明模型已内化了一种更为精炼的视觉语言策略——工具不再作为"辅助拐杖",而是成为一种战略性资源,仅在必要时才被调用。较高的定位IoU与较少的工具调用共同反映出模型已发展出隐含的规划机制:首先在内部缩小可能的视觉关注范围,然后选择性地利用工具来验证或优化其判断。
这一从广泛探索到精准利用的演变过程,展示了模型通过端到端训练逐步学习优化工具使用以获取最大奖励的能力。工具使用已成功融入模型的核心推理流程,与其整体策略协同进化。这些发现凸显了工具增强型视觉语言模型在构建可扩展、可解释的多模态推理系统方面的巨大潜力。
05 总结
我们提出了多模态视觉语言模型 DeepEyes,通过端到端强化学习实现视觉输入与文本推理的无缝整合,形成内在的多模态思维 (iMCoT)。其核心突破在于无需依赖合成推理轨迹或外部专用模型。为引导模型发展高质量的推理能力,我们设计了专注于工具使用的数据选择机制和奖励策略体系,有效增强模型在工具辅助下的问题解决能力。
通过训练分析发现,我们观察到模型对工具的使用从随机探索阶段逐步进化为策略化精准利用阶段,伴随整体准确率提升与视觉注意力优化。DeepEyes 成功展现出视觉搜索、对比分析等复杂推理能力,且仅用 7B 参数规模的基础模型,即在多视觉语言理解基准测试中取得竞争力表现,验证了方法的有效性与高效性。
最新 AI 进展报道
请联系:amos@52cv.net
END
欢迎加入「VLM」交流群👇备注: