我爱计算机视觉 5小时前
Dens3R:终结几何孤岛,阿里提出统一3D几何预测基础模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里巴巴与上海交大联合推出Dens3R,一个创新的3D基础模型,旨在解决密集3D重建中几何预测不统一的难题。该模型通过统一框架显式建模不同几何属性间的关联,实现了从单视角到多视角的、高度一致且精确的几何感知。Dens3R采用两阶段训练策略,先学习尺度不变的点云图,再通过引入表面法线预测实现内在不变性,并结合旋转位置编码增强鲁棒性。实验结果表明,Dens3R在表面法线预测、单目深度预测和图像匹配等任务上均达到SOTA性能,展现了其作为通用3D视觉骨干网络的巨大潜力。

♦️ **统一几何预测的挑战与Dens3R的解决方案**:在密集的3D重建领域,现有方法通常孤立地预测深度、法线等单一几何量,导致结果不一致且精度受限。Dens3R提出一个统一的基础模型,通过显式建模不同几何属性间的结构关联,实现了对深度、法线等多种几何量的联合、一致且精确的预测,有效解决了这一核心挑战。

♦️ **创新的两阶段训练框架**:Dens3R采用独特的两阶段训练策略。第一阶段,通过跨视图映射一致性学习尺度不变的点云图,理解场景的相对结构。第二阶段,引入表面法线预测并利用“一对一”对应关系约束,将表示从“尺度不变”提升至“内在不变”,从而蕴含更丰富的表面几何细节,提高了预测的精度和鲁棒性。

♦️ **强大的几何感知能力与多任务表现**:Dens3R通过位置插值旋转位置编码增强了模型对高分辨率输入的鲁棒性和表达能力。实验结果显示,该模型在表面法线预测(包括反光表面和背景区域)、单目深度预测以及图像匹配等多个基准测试中均取得了SOTA或次优的成绩,充分证明了其作为基础模型的有效性和泛化能力。

♦️ **广泛的应用潜力与开源贡献**:Dens3R作为一个通用的骨干网络,能够无缝集成额外的几何预测头和下游任务分支,为3D视觉领域的诸多任务提供了坚实的基础。研究团队已将代码和项目主页开源,将极大地促进社区在统一3D几何感知方向的研究和发展。

CV君 2025-07-27 08:07 江苏

在密集的3D重建领域,尽管技术日新月异,但如何实现统一且精确的几何预测,一直是悬而未决的核心挑战。现有方法大多“各自为战”,孤立地从图像中预测深度、表面法线或点云等单一几何量。然而,这些几何属性在物理世界中本就紧密耦合,孤立的预测不仅难以保证结果的一致性,也限制了最终的精度和实用性。

针对这一痛点,来自阿里巴巴集团和上海交通大学的研究者们提出了Dens3R,一个专为联合几何密集预测而生的3D基础模型。它通过一个统一的框架,显式地建模不同几何属性间的结构关联,实现了从单视角到多视角输入的高度一致且精确的几何感知。

研究背景与方法

Dens3R的核心思想是构建一个统一的骨干网络,该网络能够逐步学习到一个既具有泛化能力又具备内在不变性(intrinsic-invariant)的点云图表示(pointmap representation),并在此基础上联合预测多个几何量。为此,研究者设计了一个包含轻量级共享编解码器和多个任务特定头的架构,并采用了一个巧妙的两阶段训练策略。

第一阶段:学习尺度不变的点云图

在第一阶段,模型通过强制执行多视角间的跨视图映射一致性,学习到一个尺度不变的点云图。这意味着模型理解了场景的相对结构,但这个阶段的几何信息还不够精细。如下图所示,直接从这个阶段的点云图推导出的法线信息是不够准确的。

第二阶段:学习内在不变的点云图

在第二阶段,模型引入了表面法线的预测,并利用“一对一”的对应关系约束,将表示从“尺度不变”提升为“内在不变”。这使得点云图不仅包含了场景结构,还蕴含了更丰富的表面几何细节。

为了增强模型对高分辨率输入的鲁棒性和表达能力,Dens3R还引入了位置插值旋转位置编码(position-interpolated rotary positional encoding)。基于这个统一且强大的骨干网络,可以无缝集成额外的几何预测头和下游任务分支,展现了其作为基础模型的巨大潜力。

实验结果与分析

大量的实验证明了Dens3R在多种密集3D预测任务上的卓越性能。

表面法线预测:无论是在室内还是室外场景,Dens3R生成的法线图都比先前的方法更准确、更富细节。如下图所示,它甚至能为反光表面和背景区域预测出准确的法线。

量化指标也证实了这一点,Dens3R在平均和中值角度误差上均取得了SOTA(State-of-the-art)或次优的成绩。

单目深度预测:在单目深度预测任务上,Dens3R同样表现出色,在相对点误差(REL)、均方根误差(RMSE)以及inliers比例等多项关键指标上都名列前茅。

图像匹配:作为一个基础模型,其学习到的特征也应具备强大的匹配能力。在ZEB数据集上的图像匹配基准测试中,Dens3R在几乎所有AUC指标上都超越了之前的方法。

论文贡献与价值

    提出3D基础模型Dens3R: 首次提出了一个专为联合几何密集预测设计的3D基础模型,能够同时、一致地预测深度、法线等多个几何量。

    创新的两阶段训练框架: 通过两阶段训练,逐步构建了一个从尺度不变到内在不变的强大几何表示,有效解决了多任务学习中的一致性问题。

    性能卓越: 在表面法线预测、单目深度预测、图像匹配等多个基准测试中取得了SOTA性能,验证了其作为基础模型的有效性和泛化能力。

    广泛的应用潜力: Dens3R作为一个通用的骨干网络,可以轻松扩展到各种下游应用,为3D视觉领域的诸多任务提供了一个坚实的基础。

    代码与项目开源: 研究团队开源了代码和项目主页,将极大地促进社区在统一3D几何感知方向的研究。

总而言之,Dens3R通过其创新的统一框架和两阶段训练策略,为解决密集3D重建中的核心挑战——几何一致性问题,提供了一个强有力的答案,并为未来的3D视觉研究和应用奠定了坚实的基础。

了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Dens3R 3D重建 几何预测 基础模型 计算机视觉
相关文章