CV君 2025-06-13 12:18 江苏
结果优秀、代码开源、工业应用和学术研究潜力大
关注公众号,发现CV技术之美
极受关注的 VGGT
在CVPR 2025候选获奖的16篇论文中 VGGT: Visual Geometry Grounded Transformer 获得了极大的关注。
VGGT 作者来自牛津大学 Visual Geometry Group 和 Meta AI。
在国外社交平台 X 上相关推文获得19万次的浏览:
相应开源仓库已经获得7.4K星标:
3D视觉:问道几何?
在传统的3D视觉领域,往往认为立体几何优化过程是极其重要的(如 Bundle Adjustment 过程),当然也很费计算量,如图:
但 VGGT 的作者却认为也许这并非必要。
VGGT 是一篇3D视觉领域的论文,但它却想告诉我们:研究3D视觉,也许你不需要领域知识。
你只需要关注:网络模型、数据和算力。
VGGT 网络流程图:
它是一个前馈Transformer网络,接收的数据是:一幅图像、或者少量的几幅图像,如果数据和算力富余也可以接收上百幅图像,网络直接输出3D属性:相机内外参数 (Camera Parameters)、稠密深度图 (Depth Maps)、全局一致的点图 (Point Maps)、跨视图3D点轨迹 (3D Point Tracks)。
作者在模型上的创新就是网络结构中的交替注意力机制,即上图中重复了次的Global Attention 和Frame Attertion网络层。
正如作者对3D视觉问题的定义:
VGGT 就是一个函数,完成从图像到3D属性的映射,不需要拖泥带水的几何优化后处理。
作者实现中取 ,参数量总计12亿(1.2B),训练是在64块A100 GPUs上完成,训练时间9天。
该多任务学习的损失函数也朴素且直接:
解决问题的关键:有标注的数据
训练数据可能是更重要的事。包含Co3Dv2 、 BlendMVS 、 DL3DV 、 MegaDepth 、 Kubric 、WildRGB 、 ScanNet 、HyperSim 、Mapillary 、 Habitat 、Replica 、MVS-Synth 、 PointOdyssey 、Virtual KITTI 、 Aria Synthetic Environments 、 Aria Digital Twin 、类似Objaverse的合成数据集。数据集标注来自传感器本身、合成引擎或SfM。
结果展示:又快又好
下图是 VGGT 与24年的DUSt3R在油画、无重叠的双视图、重复纹理的多视图上的重建结果对比:
VGGT都取得了更好的结果。
以下展示 VGGT 从单幅图像到多达128幅图像的重建结果(时间快、效果好):
性能比较:全方位超越
受益于大模型+大数据,VGGT 的结果在各种测评中也稳定的优秀。
在多个任务上效果拔群:
在相机姿态估计任务性能指标超出一大截,如果加上后处理BA,效果更好(而且时间也很快)。
模型架构优秀,作者对比研究了交替注意力机制带来的提升:
多任务学习研究,学习任务越多,性能表现越好:
在下游3D视觉任务视角合成上的量化结果:
视角合成结果示例:
动态点跟踪测评结果:在IMC数据集上的测评结果,加上BA后指标暴涨,运行时间则有数量级的提升:
值得一提的是,之前的最好结果(VGGSfM),也是出自作者本人之手(优秀的人完成了自我超越^_^)。
运行时间和内存占用,H100 GPU测试,图像大小 336 x 518,20幅图像仅需要0.31s。
相关资源
END
欢迎加入「3D视觉」交流群👇备注: