index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
本文介绍了ReasonMap,一个全新的多模态推理评测基准,专注于评估大语言模型(LLMs)和多模态大模型(MLLMs)在理解高分辨率地铁图中的细粒度视觉理解与空间推理能力。通过ReasonMap,研究人员能够更全面地评估模型在复杂图像中的表现,并揭示当前模型在细粒度视觉推理方面的局限性,为未来模型优化提供参考。
🗺️ ReasonMap 专注于评估多模态大模型在理解高分辨率地铁图方面的能力,与传统视觉问答不同,更侧重空间关系和路线推理。
🎯 该基准设计了高分辨率图像和难度标签,并构建了多维度评估体系,包括路线的正确性、合理性和换乘策略等,以全面评估模型能力。
⚙️ ReasonMap 采用半自动化标注流程,高效生成推理任务和问答对,支持题目难度调控和多样化问题模板,具备快速扩展性。
📈 实验结果表明,经强化学习后训练的闭源模型在ReasonMap上表现较好,但与人类水平仍有差距,同时该基准揭示了当前多模态大模型在复杂图像理解中的薄弱环节。
2025-06-10 13:45 北京
5839×5449分辨率下的真相

近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。然而,一个关键问题仍然值得追问:多模态大模型(MLLMs),真的能“看懂图”了吗?
特别是在面对结构复杂、细节密集的图像时,它们是否具备细粒度视觉理解与空间推理能力?我们又该如何系统评估这一能力?
为此,我们提出一个全新的评测基准 —— ReasonMap。
论文链接:https://arxiv.org/abs/2505.18675项目主页:https://fscdc.github.io/Reason-Map/代码链接:https://github.com/fscdc/ReasonMap数据集链接:https://huggingface.co/datasets/FSCCS/ReasonMap
🗺️ ReasonMap 是什么?ReasonMap 是首个聚焦于高分辨率交通图(主要为地铁图)的多模态推理评测基准,专为评估大模型在理解图像中细粒度的结构化空间信息方面的能力而设计。
与传统视觉问答(VQA)不同,ReasonMap 更强调图像中的空间关系和路线推理,具备以下几个特点:
🎯 高分辨率挑战:数据集中每张地图图像平均分辨率高达 5839 × 5449,远高于现有视觉推理任务,对模型的图像编码能力提出更高要求。🧠 难度感知设计:我们为图像设置了难度标签,并保证问答对在不同难度层级中的均衡分布,帮助更全面地评估模型能力。🔍 多维度评估体系:不仅考察模型回答的准确性,还对模型路线的质量包含路径合理性和换乘策略等角度进行细粒度评估。🗺️ 贴近真实使用场景:任务直接基于图像推理,不依赖结构化中间件,更接近人类使用地图时的思维方式。
⚙️ 我们如何构建 ReasonMap?为了构建这个大规模、高质量的评测数据集,我们设计了一套高效的半自动化标注流程,以极低的人力成本,从国内外多个城市的地铁图中自动生成推理任务和问答对。具体优势包括:
🎚️ 支持题目难度调控:我们为不同问题设计了难度等级,便于模型评估和对比分析;🧩 多样化问题模板:覆盖单线直达、多线换乘、路径最短、站点经过等多种典型场景;⚡ 高效扩展性:标注与验证流程可快速适配新城市,实现低成本规模扩展。
🧠 我们评估了哪些模型?ReasonMap 的核心目标是评估多模态大模型在细粒度视觉推理任务中的真实能力,尤其关注近年来兴起的基于强化学习后训练(Reinforcement Learning Fine-tuning)的长思考模型。
我们在 15 个领先的多模态大模型上进行了系统测试,涵盖了多个开源与闭源体系,包括:
💡 强推理能力模型(如 GPT-o3、Gemini 2.5、Doubao、QvQ-72B、Skywork-R1V 等)📦 通用多模态模型(如 GPT-4o、Qwen-VL2.5、InternVL 3 等)通过与 ReasonMap 提供的高分辨率图像和空间推理任务对接,我们对这些模型的路径规划正确性、合理性和视觉理解粒度进行了深入对比分析。
同时我们对推理错误案例进行了细致分析,并将其进行系统分类,涵盖视觉混淆、格式错误、幻觉、拒绝回答等多种类型。这些分析揭示了当前多模态大模型在复杂图像理解中的薄弱环节,为未来模型在细粒度视觉推理方向的优化提供了明确的改进方向和实践参考。
📈 评估结果揭示了什么?我们的实验发现,ReasonMap 有效放大了多模态模型在真实视觉推理任务中的差距,具体体现在:
🔍 当前主流开源的 MLLMs 在 ReasonMap 上面临明显性能瓶颈,尤其在跨线路路径规划上常出现推理断裂或站点遗漏;🚀 经强化学习后训练的闭源模型(如 GPT-o3)在多个维度上显著优于现有开源模型,但与人类水平相比仍存在明显差距;🧪 ReasonMap 显示出强区分力,成为判断模型是否具备真实视觉-空间推理能力的重要基准工具。
更多阅读
#投 稿 通 道# 让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:• 投稿邮箱:hr@paperweekly.site • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧
·

















阅读原文
跳转微信打开