掘金 人工智能 07月11日 10:49
单目深度估计重大突破:无需标签,精度超越 SOTA!西湖大学团队提出多教师蒸馏新方案
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

西湖大学AGI实验室联合浙江工业大学等单位,提出了一种名为Distill Any Depth的全新多教师蒸馏算法,仅用少量无标签图片就显著提升了单目深度估计的精度,刷新了现有SOTA。该成果降低了对标注数据的依赖,使单目深度估计在更复杂的场景中表现更出色,为AI视觉感知带来“性价比”。这项技术在自动驾驶、AR/VR、机器人导航、三维建模等领域具有广泛的应用前景。

💡单目深度估计是利用单张RGB图像预测场景中每个像素的深度信息,在自动驾驶、AR/VR等领域有广泛应用,但传统方法依赖大量标注数据。

✨Distill Any Depth框架通过两大技术创新解决依赖问题:结合局部最小二乘归一化和全局信息,提升伪标签质量;引入“跨上下文蒸馏”机制,使得模型在细节预测上更精准,结构理解更稳定。

👨‍🏫该框架采用多教师协同蒸馏架构,每次训练从多个预训练深度估计模型中随机选择,生成伪标签。多模型协同带来了互补信息,增强了学生模型的泛化能力和鲁棒性。

✅实验结果表明,该方法在多个公开数据集上刷新性能,在复杂图像中生成深度图细节更清晰,边缘更平滑,视觉层次更准确,在野外环境下预测更稳定。

🚀单目深度估计的进步将促进自动驾驶、AR/VR、影视游戏制作、文化遗产保护、建筑与室内设计等领域的智能化升级,应用前景广阔。

【导读】

单张RGB图像,也能重建出逼真的3D世界?

近日,西湖大学AGI实验室联合浙江工业大学等单位,提出了一种全新的多教师蒸馏算法,仅靠2万张无标签图片,就显著提升了单目深度估计的精度,刷新了现有SOTA!这一成果不仅降低了对标注数据的依赖,还让单目深度估计在更复杂的场景中表现得更强、更稳,真正为AI视觉感知打上“性价比”。>>更多资讯可加入CV技术群获取了解哦


一、什么是单目深度估计?为何重要?

单目深度估计指的是利用一张 RGB 图像预测场景中每个像素的深度信息,是当前计算机视觉领域中的重要任务。相比激光雷达或多摄像头系统,它具有成本低、部署简单的优势,在自动驾驶、AR/VR、机器人导航、三维建模、数字文物复原等领域应用广泛。

但同时,深度估计模型往往依赖大量带有真实深度信息的标注数据进行训练,这一过程耗时高、代价大。因此,如何在无标签或弱标签数据下提升模型性能,成为该领域的关键研究方向。


二、Distill Any Depth:打破依赖标签数据的限制

为了解决当前深度估计中对标签数据的高度依赖问题,研究团队提出了 Distill Any Depth 框架,核心包含以下两大技术创新:

跨上下文蒸馏 + 深度归一化优化

传统的深度估计蒸馏方法通常采用全局归一化策略,在对伪标签进行统一处理时可能引入噪声,掩盖局部细节

研究团队提出的方案结合了局部最小二乘归一化和全局信息,通过局部归一化保留细节信息,提升伪标签质量。在此基础上,引入了 “跨上下文蒸馏” 机制:

这种机制使得模型在细节预测上更精准,在整体结构理解上更稳定,有效缓解了伪标签蒸馏中的信息损失问题。

多教师协同蒸馏架构

团队进一步提出使用多教师模型进行蒸馏。每次训练时,系统从多个预训练的主流深度估计模型中(如 MiDaS v3.1、DepthAnything v2、Marigold 等)随机选择一个生成伪标签。

多模型协同带来的互补信息,使得学生模型能够学习到更全面的深度表达,增强了泛化能力和鲁棒性,尤其在面对不规则、复杂、低质量图像时依然表现出色。


三、实验验证:在多个数据集上刷新性能

该方法在包括 NYUv2、ScanNet(室内场景)和 KITTI、ETH3D、DIODE(户外场景)在内的多个公开数据集上进行了全面验证。

定量结果显示:

定性结果也非常亮眼:


四、应用前景广阔:从工业到内容创作全面受益

单目深度估计的进步,将极大促进以下领域的智能化升级:


总结与展望

Distill Any Depth 是对深度估计领域的重要补充,特别是在无标签学习和模型蒸馏方面提出了可复制、可推广的新方法。通过局部归一化、跨上下文蒸馏与多教师协同机制,显著提升了单目深度估计在各类场景中的表现,降低了实际部署门槛。

未来,随着该方法的进一步优化,单目深度估计有望在更多智能系统中发挥基础性作用,尤其是在资源受限、数据稀缺但对三维理解要求高的任务中,展现更强大的生命力。

论文链接:arxiv.org/abs/2502.19…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

单目深度估计 AI 3D重建
相关文章