2025-04-09 20:10 四川
摘要
本文介绍了CoGen:自动驾驶中基于自适应调节的3D一致视频生成。驾驶视频生成的最新进展表明,通过提供可扩展且可控的训练数据来增强自动驾驶系统具有巨大的潜力。尽管由2D布局条件(例如高精地图和边界框)引导的预训练生成模型可以生成逼真的驾驶视频,但是实现具有高度3D一致性的可控多视图视频仍然是一项主要挑战。为了解决这个问题,本文引入了一种新的空间自适应生成框架CoGen,它利用了3D生成的当前进展来提高两个关键方面的性能:(i)为了确保3D一致性,本文首先生成高质量、可控的3D条件,以捕获驾驶场景的几何结构。本文方法通过使用这些细粒度的3D表示来替换粗略的2D条件,显著提高了生成视频的空间一致性;(ii)此外,本文引入了一致性适配器模块,以增强模型对多条件控制的鲁棒性。结果表明,该方法在保持几何保真度和视觉真实性方面表现出色,从而为自动驾驶提供了一种可靠的视频生成解决方案。
主要贡献
本文的贡献总结如下:
1)本文系统性地研究了四种基于3D语义的引导投影,验证了它们在视频生成中增强几何保真度和视觉真实性的能力;
2)本文引入了一种一致性适配器,以提高模型对多种条件的适应性,显著增强了跨帧的运动一致性;
3)在基准数据集和指标上的实验表明,本文方法在驾驶视频生成方面实现了最先进的性能。
论文图片和表格
总结
本文引入了CoGen,这是一种新的框架,它利用详细的3D语义信息来生成具有增强的逼真性和3D一致性的高质量驾驶视频。通过结合多种形式的语义引导、前景感知掩膜损失训练和一致性适配器模块,CoGen进一步提高了视频质量和3D一致性。在nuScenes数据集上的实验结果证明了CoGen实现了最先进的性能,其FVD为68.43,超越了基于2D布局和语义引导的现有方法。此外,本文方法生成的视频在下游感知任务中展现出卓越的实用性。这些结果证明了本文方法在生成自动驾驶合成数据、维持几何保真度和视觉真实性方面的实用价值。