理想 TOP2 04月10日 00:53
小米CoGen: 自动驾驶中基于自适应调节的3D一致视频生成
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

南京大学、小米、南开大学和北京大学联合发布了CoGen,一项基于自适应调节的3D一致视频生成技术,主要应用于自动驾驶领域。该技术通过生成高质量的3D条件和引入一致性适配器模块,显著提高了生成视频的空间一致性、几何保真度和视觉真实性。CoGen在nuScenes数据集上取得了显著的性能提升,为自动驾驶合成数据的生成提供了新的解决方案,并在下游感知任务中展现出卓越的实用性。

🚗 CoGen的核心在于其创新的空间自适应生成框架,该框架利用3D语义信息来提升驾驶视频的质量和3D一致性,从而为自动驾驶提供更可靠的视频生成方案。

💡 为了确保3D一致性,CoGen首先生成高质量、可控的3D条件,以捕捉驾驶场景的几何结构,并用这些细粒度的3D表示替换粗略的2D条件,显著提高了生成视频的空间一致性。

⚙️ CoGen引入了一致性适配器模块,增强了模型对多条件控制的鲁棒性,从而提升了跨帧的运动一致性,使得生成的视频在视觉上更具连贯性。

🏆 实验结果表明,CoGen在nuScenes数据集上实现了最先进的性能,FVD为68.43,超越了基于2D布局和语义引导的现有方法,并在下游感知任务中展现出卓越的实用性。

2025-04-09 20:10 四川



2025年3月28日,南京大学&小米&南开&北大发布CoGen: 3D Consistent Video Generation via Adaptive Conditioning for Autonomous Driving。

其中小米的Lijun Zhou和Haiyang Sun为项目负责人。


摘要

本文介绍了CoGen:自动驾驶中基于自适应调节的3D一致视频生成。驾驶视频生成的最新进展表明,通过提供可扩展且可控的训练数据来增强自动驾驶系统具有巨大的潜力。尽管由2D布局条件(例如高精地图和边界框)引导的预训练生成模型可以生成逼真的驾驶视频,但是实现具有高度3D一致性的可控多视图视频仍然是一项主要挑战。为了解决这个问题,本文引入了一种新的空间自适应生成框架CoGen,它利用了3D生成的当前进展来提高两个关键方面的性能:(i)为了确保3D一致性,本文首先生成高质量、可控的3D条件,以捕获驾驶场景的几何结构。本文方法通过使用这些细粒度的3D表示来替换粗略的2D条件,显著提高了生成视频的空间一致性;(ii)此外,本文引入了一致性适配器模块,以增强模型对多条件控制的鲁棒性。结果表明,该方法在保持几何保真度和视觉真实性方面表现出色,从而为自动驾驶提供了一种可靠的视频生成解决方案。

主要贡献

本文的贡献总结如下:

1)本文系统性地研究了四种基于3D语义的引导投影,验证了它们在视频生成中增强几何保真度和视觉真实性的能力;

2)本文引入了一种一致性适配器,以提高模型对多种条件的适应性,显著增强了跨帧的运动一致性;

3)在基准数据集和指标上的实验表明,本文方法在驾驶视频生成方面实现了最先进的性能。

论文图片和表格

总结

本文引入了CoGen,这是一种新的框架,它利用详细的3D语义信息来生成具有增强的逼真性和3D一致性的高质量驾驶视频。通过结合多种形式的语义引导、前景感知掩膜损失训练和一致性适配器模块,CoGen进一步提高了视频质量和3D一致性。在nuScenes数据集上的实验结果证明了CoGen实现了最先进的性能,其FVD为68.43,超越了基于2D布局和语义引导的现有方法。此外,本文方法生成的视频在下游感知任务中展现出卓越的实用性。这些结果证明了本文方法在生成自动驾驶合成数据、维持几何保真度和视觉真实性方面的实用价值。



加微信,进群深度交流理想长期基本面。不是车友群。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

CoGen 自动驾驶 视频生成 3D一致性
相关文章