直播｜空间智能Thinking in Space，李飞飞、谢赛宁工作组，多模态LLM如何观察记忆和回忆空间？

智源社区 01月14日

直播｜空间智能Thinking in Space，李飞飞、谢赛宁工作组，多模态LLM如何观察记忆和回忆空间？

本报告探讨了多模态大语言模型（MLLMs）是否具备类似人类的视觉空间智能。研究者提出了新的VSI-Bench基准测试，包含5000多对问答，发现MLLMs在空间思维方面虽不如人类，但表现出竞争力。通过语言和视觉方式探究模型如何进行空间思维，发现局部世界模型和空间意识在模型中出现，但空间推理仍是瓶颈。主流语言推理技术未能提升性能，而显式建模认知地图能增强空间感知能力。该研究由纽约大学杨霁晗博士主讲，深入探讨了MLLMs在理解和处理空间信息方面的能力。

🧠 提出VSI-Bench基准测试：包含5000多对问答，用于评估多模态大语言模型（MLLMs）的视觉空间智能，发现模型表现出一定的空间理解能力。

🗺️ 模型具备局部世界模型和空间意识：研究发现MLLMs在一定程度上具备局部世界模型和空间意识，但空间推理能力仍是其达到更高性能的主要瓶颈。

📍 认知地图增强空间感知：主流语言推理技术未能提升模型性能，而显式建模认知地图的方法，能够有效增强MLLMs的空间距离感知能力。

报告主题：Thinking in Space: 多模态大语言模型如何观察、记忆和回忆空间

报告日期：01月14日（本周二）10:30-11:30

报告要点:

人类具备从连续视觉信号中记忆空间的visual-spatial intelligence。然而，在百万规模视频数据集上训练的多模态大语言模型（MLLMs）是否也能从视频中进行"空间思维"？

我们提出了一个新的基于视频的visual-spatial intelligence基准测试(VSI-Bench)，包含超过5,000对问答对，并发现MLLMs展现虽然低于人类水平的，但具有竞争力的visual-spatial intelligence。

我们通过语言和视觉两种方式探究模型如何进行空间思维，发现虽然空间推理能力仍然是MLLMs达到更高基准性能的主要瓶颈，但局部世界模型和空间意识确实在这些模型中出现。

值得注意的是，主流的语言推理技术（例如，思维链、self-consistency、思维树）都未能带来性能提升，而在问答过程中显式建模认知地图则能增强MLLMs的空间距离感知能力。

报告嘉宾：

杨霁晗，纽约大学Courant数学科学研究所的博士后研究员，由Prof. Saining Xie指导。在此之前，他在香港大学获得博士学位，导师是Prof. Xiaojuan Qi。更早前，他在中山大学获得学士学位，由Prof. Liang Lin和Prof. Guanbin Li共同指导。杨霁晗的研究兴趣包括计算机视觉，深度学习，多模态模型以及空间智能。他曾在CVPR,ICCV,ECCV,NeuIPS,T-PAMI等顶级会议和期刊上以一作和共一发表了8篇论文，并曾获ICCV2019最佳论文提名。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态大模型空间思维视觉空间智能认知地图 VSI-Bench

相关文章

Gemini视频推理遥遥领先GPT-4o，Jeff Dean连续转发三次，首个视频多模态基准Video-MME来了

多模态大模型的多语种文字理解能力还有很长的路要走，字节、华科联合发布MTVQA Bench

钛媒体科股早知道：芯片高性能演进趋势下，该产品可将互连密度提高10倍

对标GPT-4o！不锁区、支持手机、免费使用，Moshi来啦！

中国移动：与中石油、华为等合作推动大模型在能源等领域的应用

清华明星团队打造的“中国版Sora”又拿钱了

对标 GPT-4o，法国开源实验室发布多模态大模型 Moshi；腾讯汤道生：AI 领域不应只关注大模型丨 RTE 开发者日报

$商汤-W(00020)$ 钢铁侠的“贾维斯”，在中国智能汽车上首次成为现实了。原来...

帮助盲人“看到”世界的 AI 硬件，能行吗？

商汤绝影：首发原生多模态大模型车端部署