报告主题:从3D重建到4D智能:高斯特征场驱动下的场景表示,语义交互与时空推理

报告日期:04月10日(本周四)10:30-11:30

报告要点:

本报告聚焦三维重建与动态场景理解的突破性技术,通过三项核心研究展示高斯特征场如何推动视觉智能的边界:

1. Feature 3DGS: 首创基于3D高斯泼溅的语义蒸馏框架,实现语义分割与语言引导场景编辑,并首次支持SAM点选/框选的辐射场交互操作。

2. Feature4X:提出单目视频到4D动态可交互场景的通用解法,通过可变形高斯特征场实现跨时间步自由分割、编辑与LLM驱动的开放式问答,为具身智能提供动态环境理解引擎。

3. VLM4D:构建首个视觉语言模型时空推理基准,揭示现有大模型的时空推理力能力与人类的差距,提出4D特征场重建与微调方案,显著提升动态场景解析能力。
相关paper:
[1] Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields
项目主页:https://feature-3dgs.github.io/
[2] Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields
项目主页:https://feature4x.github.io/
[3] VLM4D: Towards Spatiotemporal Awareness in Vision Language Models
项目主页:https://vlm4d.github.io/

报告嘉宾:

周诗杰,加州大学洛杉矶分校(UCLA)博士生,研究方向为3D计算机视觉与空间智能。他在CVPR,ECCV,NeurIPS,ICLR等计算机视觉与人工智能顶会发表过多篇论文,其中2篇荣获CVPR 2024 Highlight和ICLR 2025 Spotlight,同时他也是SIGGRAPH,CVPR等顶会审稿人。他曾在Google担任学生研究员,并将于2025年加入Apple担任研究实习生,致力于空间智能研发。曾获UCLA视觉与图形学傅立叶学者奖,加州大学研究生院长学者奖,哥伦比亚大学硕士荣誉学生奖,电子科技大学优秀本科毕业生奖等。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除