52CV 2025-03-20 16:35 江苏
关注公众号,发现CV技术之美
自动驾驶技术的快速发展对驾驶世界模型(Driving World Models, DWMs)提出了更高的要求。现有的大多数模型只专注于未来场景的低级视觉表示(如RGB图像),或者是几何感知(如深度信息)。如何在同一框架内兼顾未来视觉生成与深度感知,仍然是当前驾驶世界模型发展的一大挑战。
为了解决这一问题,华中科技大学和百度的研究团队提出了一种全新的统一世界模型——UniFuture。该模型不仅能够生成逼真的未来场景,还能提供高精度的未来深度感知,确保场景的视觉一致性和几何一致性,并体现出了具备构造4D 世界模型的潜力,为自动驾驶系统的决策和规划提供了强有力的支持。
1. 不同范式对比
传统的驾驶世界模型主要分为两类(见图1):
相比之下,本文提出的UniFuture可实现对未来场景的演化预测和感知,同时输出未来图像-深度,促进驾驶车辆对环境的理解。
2. 主要贡献
UniFuture的核心思想是将图像和深度映射到共享的潜空间中,从而实现两者之间的自然转换和交互。
具体而言,研究团队利用预训练的图像自编码器(AE),直接将其权重共享给深度序列,避免了额外的深度AE预训练。
此外,为了增强图像和深度之间的交互,研究团队设计了多尺度交互机制(MLI),在多个尺度上优化图像和深度之间的相互作用,确保最终生成的图像不仅视觉真实,而且能准确预测空间关系,促进了高一致性的未来图像-深度生成。
在推理阶段,UniFuture仅需输入当前图像,即可生成高一致性的未来图像-深度对。具体步骤如下:将输入图像编码为latent feature,并与噪声拼接。使用MLI增强的UNet进行多次去噪迭代。最终通过共享解码器生成具备高一致性的未来图像和深度图。
3. UniFuture的优势
4. 实验讨论
在nuScenes数据集上的广泛实验验证表明,UniFuture在未来场景生成与深度感知任务中均表现出色,超越了现有的专用模型。在未来场景生成任务中,UniFuture显著降低了生成图像的FID,证明了它在图像生成方面的高质量表现。
同时,UniFuture还在深度感知任务中取得了优异的成绩,相较于其他专门用于深度估计的模型,UniFuture在预测的深度精度(如AbsRel)方面具有明显的优势。
在未经过微调的情况下,UniFuture在Waymo数据集上也表现出色,进一步验证了其强大的泛化能力。
可视化也可以发现,UniFuture生成的场景图片和深度相比Vista (NeurIPS 24)和Marigold (CVPR 24)也更加合理和准确。尤其是,现有深度估计方法基本不具备针对未来场景的演化预测能力。
更重要的是,由于能同时生成未来图像和深度,UniFuture可重建出未来的3D点云场景,具备构建4D world model的潜力。
5. 总结
UniFuture通过创新的双潜空间共享(DLS)和多尺度潜交互(MLI)机制,成功实现了未来场景生成与深度感知的统一建模。
实验结果表明,该模型在生成和感知任务上均达到了最先进的性能,为自动驾驶领域的未来发展提供了新的思路和工具。未来的研究方向可以考虑扩展框架以纳入高层次的语义理解,从而进一步增强场景推理能力。
最新 AI 进展报道
请联系:amos@52cv.net
END
欢迎加入「自动驾驶」交流群👇备注: