52CV 2025-04-11 16:34 江苏
关注公众号,发现CV技术之美
本篇分享论文STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding?
,上交、NTU、BAAI、斯坦福等提出时空理解基准STI-Bench:评估MLLMs的精确时空理解能力。
MLLMs真的具备精确时空理解能力吗?
当前,将多模态大模型(MLLM)作为具身智能和自动驾驶的端到端方案已成趋势。但这些模型在理解语义之外,是否真正具备了对现实世界精确、定量的时空理解能力?这直接关系到它们在物理世界中行动的可靠性。
作者们认为,现有对MLLM的评估大多集中在2D视觉感知和语义问答上,缺乏对精确时空理解(如距离、速度、姿态变化等精确3D空间和时序动态)能力的严格考察。 因此,这篇论文提出一个核心问题:当前的MLLMs是否已准备好迎接需要精确时空理解的现实世界任务?
因此作者提出一个新基准STI-Bench
专门设计用于评估MLLM的精确时空理解能力,即时空智能 (Spatial-Temporal Intelligence)。 使用视频作为输入,覆盖桌面、室内、室外三大真实场景。 包含8大类挑战性任务,强制模型进行精确定量的估计和预测,例如:物体的尺寸/距离测量、空间关系判断、3D定位、位移/路径长度计算、速度/加速度分析、自身朝向变化、轨迹描述、姿态估计。
一个关键发现
通过对包括GPT-4o、Gemini系列、Claude 3.7、Qwen2.5-VL等在内的顶尖MLLM进行广泛测试,发现它们在STI-Bench上的表现普遍不佳,尤其是在需要精确定量(如距离、运动参数)的任务上得分很低,显示其精确时空理解能力远未达到实际应用的要求。
三大核心挑战
通过针对Gemini-2.5-Pro这个有详细思考过程的模型作为代表,分析错误模式后,作者指出现有MLLM主要存在定量空间属性不准确、时间动态理解缺陷、跨模态信息整合能力薄弱等三大局限性,阻碍了其精确时空理解。
STI-Bench的意义
它不仅是一个评测工具,更像是一次现实检验,揭示了当前MLLM在迈向真正理解和交互于物理世界的道路上,尤其在精确时空理解方面存在的显著差距。这项工作为社区指明了未来需要攻克的方向,以开发出更可靠、真正具备精确时空理解能力的MLLM,服务于具身智能、自动驾驶等关键领域。
最新 AI 进展报道
请联系:amos@52cv.net
END
欢迎加入「大模型」交流群👇备注: