掘金 人工智能 18小时前
【三维重建】VGGT:告别漫长等待,几秒解锁3D世界的CVPR黑马
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Facebook Research团队开源了VGGT,一款基于前馈Transformer的3D重建模型。该模型仅需单张到数百张图像作为输入,几秒内即可输出相机位姿、深度图、点云及运动轨迹,无需迭代优化。VGGT在ScanNet、KITTI等数据集上表现出色,相机位姿误差、深度估计等指标均优于传统方法。项目已开源,提供极客部署指南,方便开发者构建实时3D扫描应用。VGGT的出现,预示着3D视觉领域端到端推理的新趋势。

💡VGGT的核心在于采用前馈Transformer架构,摒弃了传统SLAM和MVS的迭代优化流程。该模型将图像序列视为时空信号进行处理。

📷VGGT通过级联的可变形卷积模块提取像素级特征,并使用跨视图注意力机制融合多帧信息。其Unified 3D Property Head模块并行预测相机位姿、深度图、点云和运动轨迹。

✅在ScanNet和KITTI等数据集上,VGGT表现出色。例如,其相机位姿误差比BundleFusion低37%,深度估计指标也优于MVSNet。点云完整性也得到显著提升。

💻VGGT项目已开源,提供了详细的部署指南。用户需准备Linux系统和NVIDIA显卡,安装依赖库,下载预训练模型后即可运行Demo。开发者可以利用VGGT构建实时3D扫描APP、游戏引擎工具或机器人导航系统。

1. 引言

计算机视觉领域常常被复杂的 3 D 重建任务困扰,传统方法需要漫长优化与昂贵计算。但现在,Facebook Research 团队开源的 VGGT(CVPR’25 论文工作)改变了游戏规则。这款前馈 Transformer 模型只需单张到数百张图像输入,几秒钟内直接输出相机位姿、深度图、点云及运动轨迹四大核心结果,无需任何迭代优化。技术发烧友们,是时候体验“一键生成 3 D 世界”的未来了。


2. 正文

技术核心:前馈 Transformer 的力量

VGGT 的核心突破在于彻底摒弃了传统 SLAM 或多视图立体视觉(MVS)中的迭代优化流程。其架构将图像序列视为时空信号,通过级联的可变形卷积模块提取像素级特征,再用跨视图注意力机制融合多帧信息。关键的Unified 3 D Property Head模块并行预测:

这种端到端设计让计算时间从分钟级压缩到秒级(实测 1 张图仅需 0.3 秒,百张图约 3 秒)。

实测表现:多项 SOTA 认证

在 ScanNet、KITTI 等权威数据集验证:

极客部署指南(已验证可用版本)

前提:Linux 系统,NVIDIA 显卡(至少 8 GB 显存)

# 1. 克隆仓库与依赖安装  git clone https://github.com/facebookresearch/vggt  cd vggt  conda create -n vggt python=3.9  conda activate vggt  pip install -r requirements.txt  # 包含PyTorch 2.1+, Open3D  # 2. 安装关键库COLMAP(用于数据预处理)  sudo apt-get install colmap  # Ubuntu  # 或源码编译:https://colmap.github.io/install.html  # 3. 下载预训练模型(选1个)  wget https://dl.fbaipublicfiles.com/vggt/models/vggt_base.pth  # 基础模型  wget https://dl.fbaipublicfiles.com/vggt/models/vggt_large.pth  # 高精度模型  # 4. 运行Demo(示例:单图推理)  python demo.py --input_dir /path/to/single_image.jpg --output_dir ./results

避坑提示:若报错 CUDA out of memory,尝试减小 --image_size 参数值(默认 1024 x 1024)。


3. 总结

VGGT 不是渐进式优化,而是一次架构革命。它证明了 Transformer 能直接在 3 D 视觉中实现高效、鲁棒的前馈推理。虽然目前对极端遮挡场景仍有局限(如密集植被),但其开源代码与预训练模型已足够让开发者构建实时 3 D 扫描 APP、游戏引擎工具或机器人导航系统。技术本质就是用计算换时间——当 GPU 算力足够便宜,端到端学习就是最优解。

延伸思考:此框架能否扩展到动态场景重建?Facebook 团队在论文 5.4 节透露了时序建模的改进方向。开发者也正在积极扩展其对 RGB-D 数据的支持,代码仓库的 dev 分支值得追踪。

项目地址:github.com/facebookres…

官方 Demo:huggingface.co/spaces/face…

论文地址:arxiv.org/abs/2503.11…


往期回顾:

🚀 【资源合集】强化学习训练LLM Agents的实战资源库:AgentsMeetRL

🚀 当 Java 遇上大模型,LangChain 4 j 如何成为开发者的「AI 胶水」?

🚀【语音合成】B 站开源 IndexTTS :声音克隆,吊打真人发音,断句精准度 98%

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

VGGT 3D重建 Transformer 计算机视觉
相关文章