index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
本报告探讨了多模态大语言模型(MLLMs)是否具备类似人类的视觉空间智能。研究者提出了新的VSI-Bench基准测试,包含5000多对问答,发现MLLMs在空间思维方面虽不如人类,但表现出竞争力。通过语言和视觉方式探究模型如何进行空间思维,发现局部世界模型和空间意识在模型中出现,但空间推理仍是瓶颈。主流语言推理技术未能提升性能,而显式建模认知地图能增强空间感知能力。该研究由纽约大学杨霁晗博士主讲,深入探讨了MLLMs在理解和处理空间信息方面的能力。
🧠 提出VSI-Bench基准测试:包含5000多对问答,用于评估多模态大语言模型(MLLMs)的视觉空间智能,发现模型表现出一定的空间理解能力。
🗺️ 模型具备局部世界模型和空间意识:研究发现MLLMs在一定程度上具备局部世界模型和空间意识,但空间推理能力仍是其达到更高性能的主要瓶颈。
📍 认知地图增强空间感知:主流语言推理技术未能提升模型性能,而显式建模认知地图的方法,能够有效增强MLLMs的空间距离感知能力。

报告主题:Thinking in Space: 多模态大语言模型如何观察、记忆和回忆空间
报告日期:01月14日(本周二)10:30-11:30
报告要点:
人类具备从连续视觉信号中记忆空间的visual-spatial intelligence。然而,在百万规模视频数据集上训练的多模态大语言模型(MLLMs)是否也能从视频中进行"空间思维"?我们提出了一个新的基于视频的visual-spatial intelligence基准测试(VSI-Bench),包含超过5,000对问答对,并发现MLLMs展现虽然低于人类水平的,但具有竞争力的visual-spatial intelligence。我们通过语言和视觉两种方式探究模型如何进行空间思维,发现虽然空间推理能力仍然是MLLMs达到更高基准性能的主要瓶颈,但局部世界模型和空间意识确实在这些模型中出现。值得注意的是,主流的语言推理技术(例如,思维链、self-consistency、思维树)都未能带来性能提升,而在问答过程中显式建模认知地图则能增强MLLMs的空间距离感知能力。
杨霁晗,纽约大学Courant数学科学研究所的博士后研究员,由Prof. Saining Xie指导。在此之前,他在香港大学获得博士学位,导师是Prof. Xiaojuan Qi。更早前,他在中山大学获得学士学位,由Prof. Liang Lin和Prof. Guanbin Li共同指导。杨霁晗的研究兴趣包括计算机视觉,深度学习,多模态模型以及空间智能。他曾在CVPR,ICCV,ECCV,NeuIPS,T-PAMI等顶级会议和期刊上以一作和共一发表了8篇论文,并曾获ICCV2019最佳论文提名。
扫码报名
更多热门报告


内容中包含的图片若涉及版权问题,请及时与我们联系删除