我爱计算机视觉 21小时前
CVPR 2025 论文推荐 :VGGT,快速 3D 重建新范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

VGGT 是一篇备受关注的 CVPR 2025 候选获奖论文,由牛津大学 Visual Geometry Group 和 Meta AI 联合推出。该研究颠覆了传统 3D 视觉对几何优化的依赖,提出了一种基于 Transformer 的新方法,仅需图像数据和算力,即可直接输出 3D 属性,如相机参数、深度图等。VGGT 在多个 3D 视觉任务上表现出色,超越了现有技术,并在速度和效率上实现了显著提升,为 3D 视觉研究提供了新的思路。

💡 VGGT 采用前馈 Transformer 网络,通过交替注意力机制处理图像数据,直接映射到 3D 属性,简化了传统 3D 视觉流程。

🚀 VGGT 模型参数量达到 12 亿,在 64 块 A100 GPU 上训练 9 天完成,展现了强大的计算能力。同时,它依赖大规模数据集进行训练,包括 Co3Dv2、BlendMVS 等,确保了模型的泛化能力。

🥇 VGGT 在相机姿态估计、视角合成等任务上均取得优异成绩,性能指标大幅超越现有技术。即使在复杂场景下,VGGT 也能快速生成高质量的 3D 重建结果,且运行时间短,内存占用低。

🔬 VGGT 的优势在于其架构创新和多任务学习能力。研究表明,交替注意力机制提升了模型性能,而同时学习多个任务能够进一步增强模型的表现。此外,VGGT 的开源和 Demo 也为研究者提供了便利。

CV君 2025-06-13 12:18 江苏

结果优秀、代码开源、工业应用和学术研究潜力大




关注公众号,发现CV技术之美




极受关注的 VGGT

在CVPR 2025候选获奖的16篇论文中 VGGT: Visual Geometry Grounded Transformer 获得了极大的关注。

CVPR 2025 候选获奖论文 VGGT

VGGT 作者来自牛津大学 Visual Geometry Group 和 Meta AI

在国外社交平台 X 上相关推文获得19万次的浏览:

相应开源仓库已经获得7.4K星标:

3D视觉:问道几何?

在传统的3D视觉领域,往往认为立体几何优化过程是极其重要的(如 Bundle Adjustment 过程),当然也很费计算量,如图:

Bundle Adjustment

但 VGGT 的作者却认为也许这并非必要。

VGGT 是一篇3D视觉领域的论文,但它却想告诉我们:研究3D视觉,也许你不需要领域知识。

你只需要关注:网络模型、数据和算力

VGGT 网络流程图:

它是一个前馈Transformer网络,接收的数据是:一幅图像、或者少量的几幅图像,如果数据和算力富余也可以接收上百幅图像,网络直接输出3D属性:相机内外参数 (Camera Parameters)、稠密深度图 (Depth Maps)、全局一致的点图 (Point Maps)、跨视图3D点轨迹 (3D Point Tracks)。

作者在模型上的创新就是网络结构中的交替注意力机制,即上图中重复了次的Global Attention 和Frame Attertion网络层。

正如作者对3D视觉问题的定义:

VGGT 就是一个函数,完成从图像到3D属性的映射,不需要拖泥带水的几何优化后处理。

作者实现中取 ,参数量总计12亿(1.2B),训练是在64块A100 GPUs上完成,训练时间9天。

该多任务学习的损失函数也朴素且直接

解决问题的关键:有标注的数据

训练数据可能是更重要的事。包含Co3Dv2 、 BlendMVS 、 DL3DV 、 MegaDepth 、 Kubric  、WildRGB 、 ScanNet 、HyperSim 、Mapillary 、 Habitat 、Replica 、MVS-Synth 、 PointOdyssey 、Virtual KITTI 、 Aria Synthetic Environments 、 Aria Digital Twin 、类似Objaverse的合成数据集。数据集标注来自传感器本身、合成引擎或SfM

结果展示:又快又好

下图是 VGGT 与24年的DUSt3R在油画、无重叠的双视图、重复纹理的多视图上的重建结果对比:

VGGT都取得了更好的结果。

以下展示 VGGT 从单幅图像到多达128幅图像的重建结果(时间快、效果好):

性能比较:全方位超越

受益于大模型+大数据,VGGT 的结果在各种测评中也稳定的优秀。

在多个任务上效果拔群:

在相机姿态估计任务性能指标超出一大截,如果加上后处理BA,效果更好(而且时间也很快)。

模型架构优秀,作者对比研究了交替注意力机制带来的提升:

多任务学习研究,学习任务越多,性能表现越好:

在下游3D视觉任务视角合成上的量化结果:

视角合成结果示例:

动态点跟踪测评结果:在IMC数据集上的测评结果,加上BA后指标暴涨,运行时间则有数量级的提升:

值得一提的是,之前的最好结果(VGGSfM),也是出自作者本人之手(优秀的人完成了自我超越^_^)。

运行时间和内存占用,H100 GPU测试,图像大小 336 x 518,20幅图像仅需要0.31s。

相关资源


END




欢迎加入「3D视觉交流群👇备注:3D






阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

VGGT 3D视觉 Transformer CVPR 2025
相关文章