直播｜李飞飞、谢赛宁组最新工作：空间智能，多模态LLM如何观察、记忆和回忆空间？

报告主题：Thinking in Space: 多模态大语言模型如何观察、记忆和回忆空间

报告日期：01月14日（本周二）10:30-11:30

报告要点:

人类具备从连续视觉信号中记忆空间的visual-spatial intelligence。然而，在百万规模视频数据集上训练的多模态大语言模型（MLLMs）是否也能从视频中进行"空间思维"？

我们提出了一个新的基于视频的visual-spatial intelligence基准测试(VSI-Bench)，包含超过5,000对问答对，并发现MLLMs展现虽然低于人类水平的，但具有竞争力的visual-spatial intelligence。

我们通过语言和视觉两种方式探究模型如何进行空间思维，发现虽然空间推理能力仍然是MLLMs达到更高基准性能的主要瓶颈，但局部世界模型和空间意识确实在这些模型中出现。

值得注意的是，主流的语言推理技术（例如，思维链、self-consistency、思维树）都未能带来性能提升，而在问答过程中显式建模认知地图则能增强MLLMs的空间距离感知能力。

报告嘉宾：

杨霁晗，纽约大学Courant数学科学研究所的博士后研究员，由Prof. Saining Xie指导。在此之前，他在香港大学获得博士学位，导师是Prof. Xiaojuan Qi。更早前，他在中山大学获得学士学位，由Prof. Liang Lin和Prof. Guanbin Li共同指导。杨霁晗的研究兴趣包括计算机视觉，深度学习，多模态模型以及空间智能。他曾在CVPR,ICCV,ECCV,NeuIPS,T-PAMI等顶级会议和期刊上以一作和共一发表了8篇论文，并曾获ICCV2019最佳论文提名。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签