我爱计算机视觉 04月11日 21:32
时空理解基准STI-Bench:评估MLLMs的精确时空理解能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了STI-Bench,一个专门用于评估多模态大模型(MLLMs)精确时空理解能力的基准。研究发现,尽管MLLMs在语义理解方面有所进步,但在精确的时空理解方面,如距离、速度、姿态变化等,表现仍有待提高。通过在包括GPT-4o、Gemini系列等顶尖模型上的测试,STI-Bench揭示了MLLMs在定量空间属性、时间动态理解和跨模态信息整合方面的局限性。这项研究为开发更可靠的MLLMs指明了方向,对具身智能和自动驾驶等领域具有重要意义。

🤔 STI-Bench是一个针对多模态大模型(MLLMs)设计的时空理解基准,旨在评估模型在精确时空理解方面的能力,例如测量物体尺寸、判断空间关系、进行3D定位等。

🧐 通过对GPT-4o、Gemini系列、Claude 3.7、Qwen2.5-VL等顶尖MLLMs的测试,结果显示它们在STI-Bench上的表现普遍不佳,特别是在需要精确定量的任务上得分较低,表明其时空理解能力与实际应用需求存在差距。

⚠️ 研究指出现有MLLMs在定量空间属性不准确、时间动态理解缺陷、跨模态信息整合能力薄弱等三大局限性,这些问题阻碍了它们实现精确的时空理解。

💡 STI-Bench不仅是一个评测工具,更揭示了当前MLLMs在迈向真正理解和交互于物理世界的道路上,尤其在精确时空理解方面存在的显著差距。这项工作为社区指明了未来需要攻克的方向。

52CV 2025-04-11 16:34 江苏




关注公众号,发现CV技术之美




本篇分享论文STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding?,上交、NTU、BAAI、斯坦福等提出时空理解基准STI-Bench:评估MLLMs的精确时空理解能力。


MLLMs真的具备精确时空理解能力吗?

当前,将多模态大模型(MLLM)作为具身智能和自动驾驶的端到端方案已成趋势。但这些模型在理解语义之外,是否真正具备了对现实世界精确、定量的时空理解能力?这直接关系到它们在物理世界中行动的可靠性。

作者们认为,现有对MLLM的评估大多集中在2D视觉感知和语义问答上,缺乏对精确时空理解(如距离、速度、姿态变化等精确3D空间和时序动态)能力的严格考察。 因此,这篇论文提出一个核心问题:当前的MLLMs是否已准备好迎接需要精确时空理解的现实世界任务?


因此作者提出一个新基准STI-Bench

专门设计用于评估MLLM的精确时空理解能力,即时空智能 (Spatial-Temporal Intelligence)。 使用视频作为输入,覆盖桌面、室内、室外三大真实场景。 包含8大类挑战性任务,强制模型进行精确定量的估计和预测,例如:物体的尺寸/距离测量、空间关系判断、3D定位、位移/路径长度计算、速度/加速度分析、自身朝向变化、轨迹描述、姿态估计。


一个关键发现

通过对包括GPT-4o、Gemini系列、Claude 3.7、Qwen2.5-VL等在内的顶尖MLLM进行广泛测试,发现它们在STI-Bench上的表现普遍不佳,尤其是在需要精确定量(如距离、运动参数)的任务上得分很低,显示其精确时空理解能力远未达到实际应用的要求。


三大核心挑战

通过针对Gemini-2.5-Pro这个有详细思考过程的模型作为代表,分析错误模式后,作者指出现有MLLM主要存在定量空间属性不准确、时间动态理解缺陷、跨模态信息整合能力薄弱等三大局限性,阻碍了其精确时空理解。


STI-Bench的意义

它不仅是一个评测工具,更像是一次现实检验,揭示了当前MLLM在迈向真正理解和交互于物理世界的道路上,尤其在精确时空理解方面存在的显著差距。这项工作为社区指明了未来需要攻克的方向,以开发出更可靠、真正具备精确时空理解能力的MLLM,服务于具身智能、自动驾驶等关键领域。

最新 AI 进展报道
请联系:amos@52cv.net

END




欢迎加入「大模型交流群👇备注:LLM




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MLLMs 时空理解 STI-Bench 人工智能
相关文章