CV君 2025-07-27 08:07 江苏
在密集的3D重建领域,尽管技术日新月异,但如何实现统一且精确的几何预测,一直是悬而未决的核心挑战。现有方法大多“各自为战”,孤立地从图像中预测深度、表面法线或点云等单一几何量。然而,这些几何属性在物理世界中本就紧密耦合,孤立的预测不仅难以保证结果的一致性,也限制了最终的精度和实用性。
针对这一痛点,来自阿里巴巴集团和上海交通大学的研究者们提出了Dens3R,一个专为联合几何密集预测而生的3D基础模型。它通过一个统一的框架,显式地建模不同几何属性间的结构关联,实现了从单视角到多视角输入的高度一致且精确的几何感知。
论文标题: Dens3R: A Foundation Model for 3D Geometry Prediction
作者: Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lv, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lv
机构: 阿里巴巴集团;上海交通大学
论文地址: https://arxiv.org/pdf/2507.16290v1
研究背景与方法
Dens3R的核心思想是构建一个统一的骨干网络,该网络能够逐步学习到一个既具有泛化能力又具备内在不变性(intrinsic-invariant)的点云图表示(pointmap representation),并在此基础上联合预测多个几何量。为此,研究者设计了一个包含轻量级共享编解码器和多个任务特定头的架构,并采用了一个巧妙的两阶段训练策略。
第一阶段:学习尺度不变的点云图
在第一阶段,模型通过强制执行多视角间的跨视图映射一致性,学习到一个尺度不变的点云图。这意味着模型理解了场景的相对结构,但这个阶段的几何信息还不够精细。如下图所示,直接从这个阶段的点云图推导出的法线信息是不够准确的。
第二阶段:学习内在不变的点云图
在第二阶段,模型引入了表面法线的预测,并利用“一对一”的对应关系约束,将表示从“尺度不变”提升为“内在不变”。这使得点云图不仅包含了场景结构,还蕴含了更丰富的表面几何细节。
为了增强模型对高分辨率输入的鲁棒性和表达能力,Dens3R还引入了位置插值旋转位置编码(position-interpolated rotary positional encoding)。基于这个统一且强大的骨干网络,可以无缝集成额外的几何预测头和下游任务分支,展现了其作为基础模型的巨大潜力。
实验结果与分析
大量的实验证明了Dens3R在多种密集3D预测任务上的卓越性能。
表面法线预测:无论是在室内还是室外场景,Dens3R生成的法线图都比先前的方法更准确、更富细节。如下图所示,它甚至能为反光表面和背景区域预测出准确的法线。
量化指标也证实了这一点,Dens3R在平均和中值角度误差上均取得了SOTA(State-of-the-art)或次优的成绩。
单目深度预测:在单目深度预测任务上,Dens3R同样表现出色,在相对点误差(REL)、均方根误差(RMSE)以及inliers比例等多项关键指标上都名列前茅。
图像匹配:作为一个基础模型,其学习到的特征也应具备强大的匹配能力。在ZEB数据集上的图像匹配基准测试中,Dens3R在几乎所有AUC指标上都超越了之前的方法。
论文贡献与价值
提出3D基础模型Dens3R: 首次提出了一个专为联合几何密集预测设计的3D基础模型,能够同时、一致地预测深度、法线等多个几何量。
创新的两阶段训练框架: 通过两阶段训练,逐步构建了一个从尺度不变到内在不变的强大几何表示,有效解决了多任务学习中的一致性问题。
性能卓越: 在表面法线预测、单目深度预测、图像匹配等多个基准测试中取得了SOTA性能,验证了其作为基础模型的有效性和泛化能力。
广泛的应用潜力: Dens3R作为一个通用的骨干网络,可以轻松扩展到各种下游应用,为3D视觉领域的诸多任务提供了一个坚实的基础。
代码与项目开源: 研究团队开源了代码和项目主页,将极大地促进社区在统一3D几何感知方向的研究。
总而言之,Dens3R通过其创新的统一框架和两阶段训练策略,为解决密集3D重建中的核心挑战——几何一致性问题,提供了一个强有力的答案,并为未来的3D视觉研究和应用奠定了坚实的基础。
了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net