我爱计算机视觉 07月30日 07:59
Dens3R:终结几何孤岛,阿里提出统一3D几何预测基础模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

针对3D重建领域几何预测不一致的难题,阿里巴巴与上海交大联合提出Dens3R基础模型。该模型通过创新的两阶段训练框架,先学习尺度不变的点云图,再提升至内在不变表示,实现了深度、法线等多种几何量的联合且精确预测。Dens3R在表面法线、单目深度预测及图像匹配等任务上均取得领先性能,为3D视觉研究提供了强大的通用骨干网络,并已开源代码与项目,推动领域发展。

💡 Dens3R作为首个3D几何联合密集预测基础模型,统一解决了深度、法线等几何量预测不一致的核心挑战。它通过显式建模几何属性间的结构关联,实现了从单视角到多视角的精确几何感知,为3D重建提供了统一框架。

🔄 模型采用创新的两阶段训练策略:第一阶段通过跨视图映射一致性学习尺度不变的点云图,第二阶段引入表面法线预测并利用“一对一”约束提升至内在不变表示,从而捕捉更丰富的表面几何细节。

🚀 Dens3R在多个3D视觉任务中展现了卓越性能,包括比先前方法更准确、细节更丰富的表面法线预测(在反光表面和背景区域表现尤佳),以及在单目深度预测和图像匹配任务上的SOTA或次优表现。

✨ 该模型通过引入位置插值旋转位置编码,增强了对高分辨率输入的鲁棒性和表达能力,并可无缝集成额外几何预测头和下游任务分支,展现了其作为基础模型的巨大潜力与广泛应用前景。

🌐 研究团队已开源Dens3R的代码与项目主页,此举将极大地促进社区在统一3D几何感知方向的研究和发展,加速相关技术的落地应用。

CV君 2025-07-27 08:07 江苏

在密集的3D重建领域,尽管技术日新月异,但如何实现统一且精确的几何预测,一直是悬而未决的核心挑战。现有方法大多“各自为战”,孤立地从图像中预测深度、表面法线或点云等单一几何量。然而,这些几何属性在物理世界中本就紧密耦合,孤立的预测不仅难以保证结果的一致性,也限制了最终的精度和实用性。

针对这一痛点,来自阿里巴巴集团和上海交通大学的研究者们提出了Dens3R,一个专为联合几何密集预测而生的3D基础模型。它通过一个统一的框架,显式地建模不同几何属性间的结构关联,实现了从单视角到多视角输入的高度一致且精确的几何感知。

论文标题: Dens3R: A Foundation Model for 3D Geometry Prediction

作者: Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lv, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lv

机构: 阿里巴巴集团;上海交通大学

论文地址: https://arxiv.org/pdf/2507.16290v1

项目主页: https://g-1nonly.github.io/Dens3R/

代码地址: https://github.com/G-1nOnly/Dens3R

研究背景与方法

Dens3R的核心思想是构建一个统一的骨干网络,该网络能够逐步学习到一个既具有泛化能力又具备内在不变性(intrinsic-invariant)的点云图表示(pointmap representation),并在此基础上联合预测多个几何量。为此,研究者设计了一个包含轻量级共享编解码器和多个任务特定头的架构,并采用了一个巧妙的两阶段训练策略。

第一阶段:学习尺度不变的点云图

在第一阶段,模型通过强制执行多视角间的跨视图映射一致性,学习到一个尺度不变的点云图。这意味着模型理解了场景的相对结构,但这个阶段的几何信息还不够精细。如下图所示,直接从这个阶段的点云图推导出的法线信息是不够准确的。

第二阶段:学习内在不变的点云图

在第二阶段,模型引入了表面法线的预测,并利用“一对一”的对应关系约束,将表示从“尺度不变”提升为“内在不变”。这使得点云图不仅包含了场景结构,还蕴含了更丰富的表面几何细节。

为了增强模型对高分辨率输入的鲁棒性和表达能力,Dens3R还引入了位置插值旋转位置编码(position-interpolated rotary positional encoding)。基于这个统一且强大的骨干网络,可以无缝集成额外的几何预测头和下游任务分支,展现了其作为基础模型的巨大潜力。

实验结果与分析

大量的实验证明了Dens3R在多种密集3D预测任务上的卓越性能。

表面法线预测:无论是在室内还是室外场景,Dens3R生成的法线图都比先前的方法更准确、更富细节。如下图所示,它甚至能为反光表面和背景区域预测出准确的法线。

量化指标也证实了这一点,Dens3R在平均和中值角度误差上均取得了SOTA(State-of-the-art)或次优的成绩。

单目深度预测:在单目深度预测任务上,Dens3R同样表现出色,在相对点误差(REL)、均方根误差(RMSE)以及inliers比例等多项关键指标上都名列前茅。

图像匹配:作为一个基础模型,其学习到的特征也应具备强大的匹配能力。在ZEB数据集上的图像匹配基准测试中,Dens3R在几乎所有AUC指标上都超越了之前的方法。

论文贡献与价值提出3D基础模型Dens3R: 首次提出了一个专为联合几何密集预测设计的3D基础模型,能够同时、一致地预测深度、法线等多个几何量。

创新的两阶段训练框架: 通过两阶段训练,逐步构建了一个从尺度不变到内在不变的强大几何表示,有效解决了多任务学习中的一致性问题。

性能卓越: 在表面法线预测、单目深度预测、图像匹配等多个基准测试中取得了SOTA性能,验证了其作为基础模型的有效性和泛化能力。

广泛的应用潜力: Dens3R作为一个通用的骨干网络,可以轻松扩展到各种下游应用,为3D视觉领域的诸多任务提供了一个坚实的基础。

代码与项目开源: 研究团队开源了代码和项目主页,将极大地促进社区在统一3D几何感知方向的研究。

总而言之,Dens3R通过其创新的统一框架和两阶段训练策略,为解决密集3D重建中的核心挑战——几何一致性问题,提供了一个强有力的答案,并为未来的3D视觉研究和应用奠定了坚实的基础。

了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Dens3R 3D几何预测 基础模型 计算机视觉 深度学习
相关文章