我爱计算机视觉 03月20日
看见未来,感知未来:统一驾驶世界模型UniFuture
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

华中科技大学和百度团队提出UniFuture模型,能生成逼真未来场景与高精度深度感知,解决驾驶世界模型发展挑战,为自动驾驶提供支持。

传统驾驶世界模型分两类,存在不足,UniFuture可实现未来场景演化预测与感知。

UniFuture将图像和深度映射到共享潜空间,设计多尺度交互机制,生成高一致性图像-深度。

UniFuture具高一致性与高精度、高效跨模态学习、广泛应用潜力等优势。

实验表明UniFuture在多项任务中表现出色,具强大泛化能力,可重建3D点云场景。

52CV 2025-03-20 16:35 江苏




关注公众号,发现CV技术之美




自动驾驶技术的快速发展对驾驶世界模型(Driving World Models, DWMs)提出了更高的要求。现有的大多数模型只专注于未来场景的低级视觉表示(如RGB图像),或者是几何感知(如深度信息)。如何在同一框架内兼顾未来视觉生成与深度感知,仍然是当前驾驶世界模型发展的一大挑战。

为了解决这一问题,华中科技大学和百度的研究团队提出了一种全新的统一世界模型——UniFuture。该模型不仅能够生成逼真的未来场景,还能提供高精度的未来深度感知,确保场景的视觉一致性和几何一致性,并体现出了具备构造4D 世界模型的潜力,为自动驾驶系统的决策和规划提供了强有力的支持。


1. 不同范式对比

图1 不同范式的自动驾驶世界模型

传统的驾驶世界模型主要分为两类(见图1):

    a. 未来生成模型:专注于生成未来的视觉场景,但忽略了几何结构信息(如深度),在几何一致性方面表现不佳,难以提供有意义的空间推理。
    b. 深度感知模型:专注于提取几何信息以支持下游任务,通常是对当前场景进行预测,缺乏对未来场景演变的预测能力。

相比之下,本文提出的UniFuture可实现对未来场景的演化预测和感知,同时输出未来图像-深度,促进驾驶车辆对环境的理解。


2. 主要贡献

图2 训练流程图

UniFuture的核心思想是将图像和深度映射到共享的潜空间中,从而实现两者之间的自然转换和交互。

具体而言,研究团队利用预训练的图像自编码器(AE),直接将其权重共享给深度序列,避免了额外的深度AE预训练。

此外,为了增强图像和深度之间的交互,研究团队设计了多尺度交互机制(MLI),在多个尺度上优化图像和深度之间的相互作用,确保最终生成的图像不仅视觉真实,而且能准确预测空间关系,促进了高一致性的未来图像-深度生成。

图3 测试流程图

在推理阶段,UniFuture仅需输入当前图像,即可生成高一致性的未来图像-深度对。具体步骤如下:将输入图像编码为latent feature,并与噪声拼接。使用MLI增强的UNet进行多次去噪迭代。最终通过共享解码器生成具备高一致性的未来图像和深度图。


3. UniFuture的优势

    高一致性与高精度:UniFuture通过图像生成和深度感知的结合,不仅提升了生成图像的视觉质量,还确保了深度预测的几何一致性。
    高效跨模态学习:通过共享潜在空间,UniFuture实现了图像和深度感知之间的高效互动,确保了两者之间的强关联性和一致性。
    广泛应用潜力:由于能同时生成未来场景的图像和深度信息,UniFuture还具备支持自动标注、构建4D world model的潜力。

4. 实验讨论

在nuScenes数据集上的广泛实验验证表明,UniFuture在未来场景生成与深度感知任务中均表现出色,超越了现有的专用模型。在未来场景生成任务中,UniFuture显著降低了生成图像的FID,证明了它在图像生成方面的高质量表现。

同时,UniFuture还在深度感知任务中取得了优异的成绩,相较于其他专门用于深度估计的模型,UniFuture在预测的深度精度(如AbsRel)方面具有明显的优势。

在未经过微调的情况下,UniFuture在Waymo数据集上也表现出色,进一步验证了其强大的泛化能力。

可视化也可以发现,UniFuture生成的场景图片和深度相比Vista (NeurIPS 24)和Marigold (CVPR 24)也更加合理和准确。尤其是,现有深度估计方法基本不具备针对未来场景的演化预测能力。

更重要的是,由于能同时生成未来图像和深度,UniFuture可重建出未来的3D点云场景,具备构建4D world model的潜力。


5. 总结

UniFuture通过创新的双潜空间共享(DLS)和多尺度潜交互(MLI)机制,成功实现了未来场景生成与深度感知的统一建模。

实验结果表明,该模型在生成和感知任务上均达到了最先进的性能,为自动驾驶领域的未来发展提供了新的思路和工具。未来的研究方向可以考虑扩展框架以纳入高层次的语义理解,从而进一步增强场景推理能力。

最新 AI 进展报道
请联系:amos@52cv.net

END




欢迎加入「自动驾驶交流群👇备注:AD




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

UniFuture 自动驾驶 深度感知 未来场景
相关文章