机器之心 05月20日 14:50
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

一项名为EMMA的新基准测试,揭示了即使是顶尖的多模态大语言模型(MLLMs)在需要深度视觉与文本融合的复杂多模态推理任务上的显著不足。该研究发现,当前MLLMs在数学、物理、化学和代码等领域的表现远落后于人类专家,即使采用思维链提示或增加计算资源,也难以弥合差距。EMMA通过精心设计的任务,旨在全面考察MLLMs在真多模态融合、跨学科推理和细粒度能力诊断等方面的能力,为未来跨模态智能的发展指明了方向。

🧐 EMMA 基准测试专门设计用于评估 MLLMs 在数学、物理、化学和代码四大领域的原生多模态推理能力,挑战模型在不同模态间无缝切换与深度整合的能力。

📊 实验结果表明,即使最先进的 MLLMs 在 EMMA 上的表现也落后于人类专家 20% 以上,这凸显了当前模型在解决复杂多模态推理任务上的局限性。

💡 研究发现,思维链提示在 EMMA 的多模态挑战下,对模型性能的提升有限,甚至对某些开源模型产生负面影响,视觉推理是核心瓶颈。

🔍 EMMA 包含从现有基准筛选出的 992 个问题,并与领域专家合作构建了 1,796 个新问题,总计 2,788 个问题,涵盖了数学、物理、化学和代码等多个领域,并进行精细化分类。

2025-05-20 12:58 北京

本文提出的基准有助于真正推动跨模态智能向更高层次迈进。

「三个点电荷 + Q、-2Q 和 + 3Q 等距放置,哪个向量最能描述作用在 + Q 电荷上的净电力方向?」

在解这道题时,我们可以通过绘制受力分析草图轻松解决。但即使是先进的多模态大语言模型,如 GPT-4o,也可能在理解「同性相斥」的基本物理原则时,错误地判断斥力的方向(例如,错误地将 + 3Q 对 + Q 的斥力方向判断为右下方而非正确的左上方)。

这个看似简单的物理问题,却暴露了多模态大模型一个「致命缺陷」:当前的 MLLMs 仍然无法进行需要深度视觉与文本融合的复杂多模态推理!一项最新研究推出的 EMMA 基准测试,如同一面「照妖镜」,揭示了即使是顶尖 MLLMs 也在这关键能力上显著不足。

目前该研究已被 ICML 2025 接收为 spotlight,代码数据已全部开源

目前已有多个模型 / 方法在 EMMA 上验证其多模态推理能力,研究发现:即使最先进的模型 ——Gemini-2.5-pro-exp-03-25 ,或者是能够进行视觉工具调用的 o3/o4-mini 模型在 EMMA 上的表现仍然落后人类专家超 20%!

研究者们还邀请了人类专家完成题目,并对比了人类专家与 AI 模型的解题过程。可以看出人类专家在面对 EMMA 中的复杂问题时,倾向于借助简洁的手绘草图进行「视觉化思考和空间模拟」,高效地找到解题路径。与之形成鲜明对比的是,模型(如 o3)则依赖于详尽的、结构化的文本步骤进行推理。这种差异凸显了当前 MLLMs 在处理多模态信息时,更偏向于运用其强大的语言逻辑能力进行处理,而较少展现出类人的、以视觉为核心的直观洞察和灵活高效的解题策略。

EMMA:深度考量 MLLMs 的多模态推理极限

将文本与图像信息有机结合、协同进行推理,是人类智能的一项核心能力。然而,多模态大语言模型是否真正具备这种深层次、非割裂的多模态推理能力,至今仍缺乏系统而深入的研究。当前的主流基准测试往往偏重于「文本主导」的推理过程,或仅需利用「浅层的视觉感知」而非「视觉推理」便可解决问题,难以全面衡量模型在复杂任务中对视觉与语言信息的整合能力,因而无法有效评估其真实的多模态理解与推理水平。

为应对这一挑战,研究者们提出了 EMMA—— 一个专为评估 MLLMs 在数学、物理、化学和代码这四大领域进行原生多模态推理而设计的增强型基准,具体如下图所示。EMMA 中的任务要求高级的跨模态推理,这些问题无法通过在单一模态中独立思考来解决,从而为 MLLMs 的推理能力提供了更严苛、更全面的「试金石」。

EMMA 不仅仅是一个新的评估数据集,它是一套精心设计的「考题」,旨在全面考察 MLLMs 在以下方面的能力:

该研究具有以下几个主要发现

数据集构建:严谨筛选与细粒度剖析

EMMA 的构建过程经过精心设计,旨在确保其能够有效评估深层多模态推理能力。

最终得到 EMMA 数据集的关键统计信息及数据分布如下:

实验与结果:SOTA 模型面临严峻考验

研究团队在 EMMA 上评估了 10 个 SOTA MLLMs,包括开源模型(如 Qwen2-VL, LLaVA-Onevision, InternVL2)和闭源模型(如 GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash/Thinking, o1)。

错误分析:视觉推理是核心症结

未来展望:跨模态智能

EMMA 基准系统性地揭示了当前多模态智能在跨越语言与视觉鸿沟时所面临的具体挑战与瓶颈,并通过设计精细的任务集合,为下一代跨模态模型的发展明确了实践方向与关键突破点。

尽管当前的多模态模型取得了显著的进步,但仍面临着两个重要的技术瓶颈:

因此,未来多模态智能的发展趋势必将从现有的语言主导推理模式逐步转向更深入的模态间动态协作模式。具体而言,下一代模型不仅需要具备视觉动作推理(如调用图像编辑工具辅助推理)的能力,更要实现视觉状态的主动更新和跨模态反馈,从而高效地驱动下一轮语言 - 视觉交互推理。EMMA 所揭示的这些具体挑战与路径,将有助于研究人员更清晰地设计新型多模态模型结构与训练策略,真正推动跨模态智能向更高层次迈进。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

EMMA 多模态推理 MLLMs 人工智能 视觉推理
相关文章