52CV 2025-04-11 16:34 江苏

关注公众号，发现CV技术之美

本篇分享论文STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding?，上交、NTU、BAAI、斯坦福等提出时空理解基准STI-Bench：评估MLLMs的精确时空理解能力。

论文: https://arxiv.org/abs/2503.23765

主页: https://mira-sjtu.github.io/STI-Bench.io/

MLLMs真的具备精确时空理解能力吗？

当前，将多模态大模型（MLLM）作为具身智能和自动驾驶的端到端方案已成趋势。但这些模型在理解语义之外，是否真正具备了对现实世界精确、定量的时空理解能力？这直接关系到它们在物理世界中行动的可靠性。

作者们认为，现有对MLLM的评估大多集中在2D视觉感知和语义问答上，缺乏对精确时空理解（如距离、速度、姿态变化等精确3D空间和时序动态）能力的严格考察。因此，这篇论文提出一个核心问题：当前的MLLMs是否已准备好迎接需要精确时空理解的现实世界任务？

因此作者提出一个新基准STI-Bench

专门设计用于评估MLLM的精确时空理解能力，即时空智能 (Spatial-Temporal Intelligence)。使用视频作为输入，覆盖桌面、室内、室外三大真实场景。包含8大类挑战性任务，强制模型进行精确定量的估计和预测，例如：物体的尺寸/距离测量、空间关系判断、3D定位、位移/路径长度计算、速度/加速度分析、自身朝向变化、轨迹描述、姿态估计。