报告主题:Thinking in Space: 多模态大语言模型如何观察、记忆和回忆空间

报告日期:01月14日(本周二)10:30-11:30

报告要点:

人类具备从连续视觉信号中记忆空间的visual-spatial intelligence。然而,在百万规模视频数据集上训练的多模态大语言模型(MLLMs)是否也能从视频中进行"空间思维"?
我们提出了一个新的基于视频的visual-spatial intelligence基准测试(VSI-Bench),包含超过5,000对问答对,并发现MLLMs展现虽然低于人类水平的,但具有竞争力的visual-spatial intelligence。
我们通过语言和视觉两种方式探究模型如何进行空间思维,发现虽然空间推理能力仍然是MLLMs达到更高基准性能的主要瓶颈,但局部世界模型和空间意识确实在这些模型中出现。
值得注意的是,主流的语言推理技术(例如,思维链、self-consistency、思维树)都未能带来性能提升,而在问答过程中显式建模认知地图则能增强MLLMs的空间距离感知能力。

报告嘉宾:
杨霁晗,纽约大学Courant数学科学研究所的博士后研究员,由Prof. Saining Xie指导。在此之前,他在香港大学获得博士学位,导师是Prof. Xiaojuan Qi。更早前,他在中山大学获得学士学位,由Prof. Liang Lin和Prof. Guanbin Li共同指导。杨霁晗的研究兴趣包括计算机视觉,深度学习,多模态模型以及空间智能。他曾在CVPR,ICCV,ECCV,NeuIPS,T-PAMI等顶级会议和期刊上以一作和共一发表了8篇论文,并曾获ICCV2019最佳论文提名。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除