我爱计算机视觉 04月09日
CVPR满分论文 | 英伟达开源双目深度估计大模型FoundationStereo
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

FoundationStereo 是一种用于立体深度估计的基础模型,它通过构建大规模合成数据集和创新的网络架构,实现了强大的零样本泛化能力。该模型在无需微调的情况下,即可在各种复杂场景中实现高精度深度估计,包括室内外环境以及具有反射和透明物体的场景。FoundationStereo 结合了单目先验信息,并通过注意力混合成本过滤和迭代优化等技术,显著提升了模型的鲁棒性和精度,并在多个基准测试中取得了领先成绩。该研究由英伟达研究院完成,为立体深度估计领域带来了新的突破。

💡 FoundationStereo 提出了一种创新的立体深度估计基础模型,该模型通过大规模合成数据训练,实现了强大的零样本泛化能力,无需针对特定场景进行微调。

🌐 该模型构建了一个包含 100 万立体图像对的高保真合成数据集,并结合自筛选流程,有效提升了数据的质量和多样性,覆盖了复杂的光照条件和多种 3D 资产。

👁️‍🗨️ FoundationStereo 采用了单目先验适配(STA)模块,将单目深度估计模型的几何先验与 CNN 特征相结合,有效缓解了合成数据与真实数据的差异,提升了模型在真实场景中的表现。

⚙️ 模型利用注意力混合成本过滤(AHCF)技术,通过轴向平面卷积和视差 Transformer,增强了模型对长程上下文信息的理解能力,提高了深度估计的准确性。

2025-04-08 21:02 江苏

一种用于立体深度估计的基础模型,旨在实现强大的零样本泛化能力。




关注公众号,发现CV技术之美




本文转自机器之心。

本文介绍了 FoundationStereo,一种用于立体深度估计的基础模型,旨在实现强大的零样本泛化能力。通过构建大规模(100 万立体图像对)合成训练数据集,结合自动自筛选流程去除模糊样本,并设计了网络架构组件(如侧调谐特征主干和远程上下文推理)来增强可扩展性和准确性。这些创新显著提升了模型在不同领域的鲁棒性和精度,为零样本立体深度估计设立了新标准。


相关论文 FoundationStereo: Zero-Shot Stereo Matching 获得 CVPR 2025 满分评审,代码已开源。


对比常用 RGBD 相机:

目前 FoundationStereo 在 Middlebury, ETH3D 等多个排行榜位列第一。


引言


立体匹配算法虽在基准数据集上表现优异,但零样本泛化能力仍不足。现有方法依赖目标域微调,且受限于网络结构或数据规模。本文提出 FoundationStereo,通过大规模合成数据、自筛选流程及结合单目先验的架构设计,实现了无需微调的跨域泛化能力。主要贡献如下:

1.FoundationStereo 大模型

2. 大规模合成数据集(FSD)

3. 单目先验适配(STA 模块)

4. 注意力混合成本过滤(AHCF)

5. 实验性能突破



方法


概览

1. 单目 - 立体协同:通过 STA 融合 ViT 的几何先验与 CNN 的匹配能力,缩小仿真 - 真实差距。

2. 成本体积高效滤波:APC(大视差核) + DT(全局注意力)实现多尺度上下文聚合。

3. 数据驱动泛化:百万级合成数据 + 自动筛选,覆盖极端场景(透明 / 反射 / 无纹理物体)。

单目基础模型适配(Monocular Foundation Model Adaptation)

1.动机:合成数据训练的立体匹配模型存在仿真 - 真实差距(sim-to-real gap),而单目深度估计模型(如 DepthAnythingV2)在真实数据上训练,能提供更强的几何先验。

2.方法:

(a) 直接使用 ViT 特征金字塔 → 效果较差(缺乏局部细节)。

(b) ViT 与 CNN 双向特征交换 → 计算复杂,收益有限。

(c) ViT 最终层特征降维后与 CNN 特征拼接 → 最优选择(平衡效率与性能)。



注意力混合成本过滤(Attentive Hybrid Cost Filtering)

1.混合成本体积构造(Hybrid Cost Volume Construction)

        2.特征拼接(Concatenation):直接拼接左右图像特征(VcatVcat),保留单目先验信息。

        3.最终成本体积:兼顾局部匹配与全局上下文。

2.轴向平面卷积(APC, Axial-Planar Convolution)

效果:在视差维度使用大核(如 Kd=17),显著提升长距离匹配能力,同时降低内存占用。

3.视差 Transformer(DT, Disparity Transformer)

4.初始视差预测

迭代优化(Iterative Refinement)

    1. 输入:成本体积特征 + 当前视差 + 上下文特征(来自 STA)。

    2. 采用 3 级 ConvGRU(粗到细)逐步优化视差,每级隐藏状态由上下文特征        初始化。

损失函数(Loss Function)


合成训练数据集(Synthetic Training Dataset)

       2.多样性增强:随机化相机参数(基线、焦距)、光照、物体布局。

       3.场景类型:结构化室内 / 室外场景 + 随机飞行的复杂物体(图 4)。

         1. 训练初始模型,在 FSD 上评估。

        2. 剔除 BP-2 > 60% 的模糊样本(如无纹理区域、过度反射)。

        3. 重新生成数据并迭代训练(共 2 轮),提升数据质量。


实验和结果


我们在 PyTorch 中实现了 FoundationStereo 模型,使用混合数据集进行训练,包括我们提出的 FSD 数据集以及 Scene Flow、Sintel、CREStereo、FallingThings、InStereo2K 和 Virtual KITTI 2 等公开数据集。采用 AdamW 优化器训练 20 万步,总 batch size 为 128,均匀分布在 32 块 NVIDIA A100 GPU 上。初始学习率设为 1e-4,在训练过程进行到 80% 时衰减为原来的 0.1 倍。输入图像随机裁剪为 320×736 大小,并采用与 IGEV 类似的数据增强方法。训练时使用 22 次 GRU 迭代更新,而在后续实验中(除非特别说明),我们使用相同的基础模型进行零样本推理,采用 32 次精炼迭代和 416 的最大视差范围。除非特别说明,我们用同一权重的大模型进行零样本的泛化测试。

在消融实验中,我们系统验证了模型各关键组件的有效性:首先比较了不同单目基础模型(DepthAnythingV2 和 DINOv2)及其融合策略,发现 ViT 特征降维拼接 CNN 的 STA 设计效果最佳;其次测试了 AHCF 模块中位置编码(余弦编码优于 RoPE)、注意力范围(仅视差维度优于全成本体积)和 APC 卷积核配置(视差核尺寸 17 时性能饱和);最后证明了引入 FSD 数据集能显著提升泛化性(Middlebury 上 BP-2 指标从 2.34% 降至 1.15%)。这些实验全面支撑了模型设计的合理性。

FoundationStereo 在透明和千纹理物体上也表现出很好的泛化性:


团队介绍

该论文来自于英伟达研究院。其中论文一作华人温伯文博士任高级研究员,此前曾在谷歌 X,Facebook Reality Labs, 亚马逊和商汤实习。研究方向为机器人感知和 3D 视觉。获得过 RSS 最佳论文奖提名。个人主页: https://wenbowen123.github.io/

END




欢迎加入「目标检测交流群👇备注:OD




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

FoundationStereo 立体深度估计 零样本学习 深度学习
相关文章