我爱计算机视觉 02月27日
腾讯混元提出:多模态大模型推理评估新基准
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯Hunyuan团队提出多模态推理基准测试框架MM-IQ,旨在评估多模态模型的抽象推理和逻辑思维能力。文章介绍了研究背景、MM-IQ基准的内容、实验结果、模型表现不佳原因及研究意义等。

🎯腾讯提出MM-IQ基准,评估多模态模型推理能力

📚MM-IQ涵盖8种推理范式,包含2710个测试项目

📊实验显示多模态模型准确率低,人类平均准确率高

🔍分析模型表现不佳原因,包括推理范式、视觉理解等方面

🎉MM-IQ基准填补多模态领域推理评估空白

52CV 2025-02-27 13:43 江苏




关注公众号,发现CV技术之美




本篇分享论文MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models,腾讯混元提出:多模态大模型推理评估新基准。


效果展示

图1.1:多模态模型以及人类在 MM-IQ 基准测试中的表现
图1.2: MM-IQ的8类推理问题示例

1. 导语

随着多模态大模型(Large Multimodal Models, LMMs)的快速发展,其在语言、视觉等多领域展现出强大的理解能力。

然而,近期o1,r1,o3-mini等推理模型的出现不禁使人好奇:最先进的LMMs是否也和r1一样具备类似人类的推理能力?

为了回答这一问题,腾讯 Hunyuan 团队提出了一个新的多模态推理基准测试框架—MM-IQ,旨在系统地评估多模态模型的抽象推理和逻辑思维能力。


2. 研究背景

在人类认知能力的评估中,智商测试(IQ Test)一直被视为衡量抽象推理能力的重要工具。它通过剥离语言背景、语言能力和特定领域知识,专注于评估人类的核心认知能力。然而,目前在人工智能领域,尤其是在多模态系统中,缺乏一个能够系统量化这些关键认知维度的基准。

现有的多模态模型虽然在 OCR、目标定位和医学图像分析等特定任务上表现出色,但这些任务的评估指标无法全面衡量多模态系统的核心推理能力。

为了解决这一问题,腾讯 Hunyuan 团队从人类 IQ 测试中汲取灵感,提出了 MM-IQ 基准,旨在通过语言和知识无关的评估,系统地衡量多模态模型的抽象推理能力。


3. MM-IQ 基准介绍

MM-IQ 基准包含 2,710 个精心策划的测试项目,涵盖了8种不同的推理范式,包括逻辑运算、数学推理、二维几何、三维几何、空间关系、时间运动、视觉指令和具体对象。

这些范式不仅涵盖了多模态模型需要掌握的核心推理能力,还通过多样化的题目配置,全面考察多模态系统的认知水平。

3.1 数据集构建

MM-IQ 的数据收集过程分为三个阶段。

首先,团队从中国国家公务员考试的公开题目中筛选出适合的题目,这些题目原本用于评估考生的抽象和推理能力,因此非常适合用于多模态模型的推理能力测试。

其次,团队对这些题目进行了分类,并对题目较少的推理范式进行针对性补充,以确保每个推理范式都有足够的样本。

最后,通过去重和答案提取等步骤,确保数据集的准确性和有效性。

3.2 推理范式

MM-IQ 的 8 种推理范式如下:


4. 实验结果

腾讯 Hunyuan 团队对多种开源和闭源的多模态大模型进行了评估,包括Deepseek-vl-7b-chat、Qwen2-VL-72B-Instruct、QVQ-72B-Preview和GPT-4o等。

结果显示,即使是性能最好的模型,其准确率也仅为 27.49%,仅略高于随机猜测的基线水平(25%),而人类的平均准确率则高达 51.27%。

4.1 模型表现

4.2 推理范式分析

在不同推理范式中,人类和闭源模型(GPT-4o)在具体对象推理中表现更好,准确率分别为 65.79% 和 50%。这可能是因为具体对象推理需要额外的知识。

而逻辑运算范式则是多模态模型的弱项,平均准确率仅为 23.69%,因为这一范式需要模型识别更复杂的抽象规则。


5. 多模态模型表现不佳的原因分析

为了深入了解多模态模型在 MM-IQ 上的表现不佳的原因,团队对三个有代表性的模型 Claude-3.5-Sonnet、Qwen2-VL-72B-Instruct 和 LLaVA-1.6-7B 的错误答案进行了人工标注分析。结果显示,错误主要集中在以下几个方面:


6. 研究意义

MM-IQ 基准的提出填补了多模态领域缺乏系统推理评估基准的空白。它不仅揭示了当前多模态模型在抽象推理能力上的巨大不足,还为未来的研究方向提供了明确的指引。

通过提升模型的结构化推理能力、抽象模式识别能力和视觉理解能力,有望推动AGI的发展。


7. 总结

MM-IQ 基准为多模态模型的推理能力评估提供了一个全新的视角。它通过多样化的抽象推理范式和高质量的数据集,系统地衡量了多模态模型的抽象推理能力。

实验结果表明,当前的多模态模型在这一任务上表现不佳,与人类水平相去甚远。未来的研究需要在模型架构、训练方法和数据多样性等方面进行更多探索,以缩小这一差距。

本文为粉丝投稿
最新 AI 进展报道
请联系:amos@52cv.net

END




欢迎加入「大模型交流群?备注:LLM




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MM-IQ 多模态模型 推理能力 腾讯 Hunyuan 研究意义
相关文章