掘金 人工智能 前天 17:55
【论文通读】OmniDrive-NVIDIA-CVPR 2025
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文提出OmniDrive框架,旨在解决2D视觉语言模型(VLM)在自动驾驶领域向3D理解扩展的难题。通过引入反事实推理,OmniDrive数据集能够生成高质量、多样化的训练数据,从而训练出能够进行3D几何和空间理解的LLM Agent。文章还提出了Omni-L和Omni-Q两种模型架构,分别代表了从2D VLM向3D迁移和整合3D感知堆栈到VLM的两种路径。实验证明,Omni-L在语言主导的反事实推理任务中表现更优,而Omni-Q在空间理解任务中召回率更高。OmniDrive数据集的加入显著提升了模型的泛化能力和任务理解,为自动驾驶的端到端应用提供了新的解决方案。

💡 OmniDrive数据集的创新性在于其基于反事实推理的合成数据标注过程,通过模拟不同驾驶行为并结合交通规则checklist,生成了高质量的训练语料,克服了传统专家数据局限性和开环评估的不足,从而使VLM能够更好地理解和处理复杂的3D自动驾驶场景。

🚀 OmniDrive框架提出了Omni-L和Omni-Q两种LLM-agent架构,分别探索了从2D VLM向3D迁移(Omni-L)和将传统3D感知堆栈集成到VLM(Omni-Q)的两种范式。实验结果表明,Omni-L在多视角图像与语言模型对齐方面表现出更高的效率和能力,尤其擅长需要语义推理的场景。

🚦 反事实推理在自动驾驶中的应用至关重要,它允许模型在已知事实基础上推演“如果当时采取不同行动会发生什么”,从而增强驾驶决策能力。OmniDrive利用这一思想,通过生成包含模拟轨迹和合法性评估的数据,使模型能够学习更鲁棒、更安全的驾驶策略。

📊 OmniDrive Agent在开环路径规划中展现出接近传统最优方法的性能,尤其是在结合车辆自身状态后。研究强调,仅依赖轨迹对齐可能忽略关键视觉线索,导致语义上的不安全,而语言模型通过问答式训练能提升对规划语义的理解和路径安全性。

📈 OmniDrive数据集的引入,即便在已使用大规模通用VLM预训练数据的情况下,仍能显著提升模型在自动驾驶任务中的性能,证明了其在提升泛化能力和任务理解方面的价值,为构建更智能的自动驾驶系统奠定了基础。

论文:OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning

代码:github.com/NVlabs/Omni…

背景与动机

2D 视觉语言模型(VLM)的快速发展及其强大的推理能力促进了端到端自动驾驶应用的出现。然而,对实际工程落地来说,将 VLM 的推理能力从 2D 扩展到完整的 3D 理解是一个主要的难点。尽管之前的很多工作已经证明了 LLM Agent 在自动驾驶应用的成功性,但是作者认为一个完整的框架是非常有必要的(包括数据集到 LLM Agent 的设计),作者也因此提出了 OmniDrive,通过反事实推理将 Agent 模型与 3D 自动驾驶任务保持一致,进而将 VLM 的 2D 理解和推理能力充分扩展到 3D 几何和空间理解。这种方法通过评估潜在场景及其结果来增强驾驶决策,类似于人类驾驶员考虑其他可供选择的行动。

Tips:

反事实推理 Counterfactual reasoning,来自因果推理领域的一个核心思想,指的是在当前事实(已知轨迹/状态)基础上,去推想“如果当时不是这样,而是另一种情况,会发生什么”。

另外,关于自动驾驶 VLM 的设计也面临一个基本的问题,是将现有的 2D VLM 进行 3D 空间对齐,还是将当前已有的 3D 感知堆栈集成到视觉语言框架中。作者根据这两条思路,提出了 Omni-L 和 Omni-Q 两个 LLM-agent 架构,分别代表了从 2D VLM 向 3D 迁移,以及从传统 3D 感知堆栈向 VLM 迁移的两种路径探索。

现有工作的不足

许多数据集以问答 (Q&A) 数据集的形式呈现,用于推理或路径规划类的 LLM Agent 的训练和基准测试。目前很多路径规划的基准测试,依然是在真实数据上采用专家轨迹、开环评估的方式。

开环评估局限性

Tips:

开环 Open-loop: 模型只输出预测,不真的控制车辆。

专家数据局限性

主要工作

OmniDrive Dataset

针对开环评估中专家数据的局限性,作者提出基于反事实推理的合成数据标注过程,将反事实推理与 VLM 的思维链功能相结合,建立规划轨迹和基于语言的推理之间的联系。大致流程:

主要需要从 Nuscenes 数据集中进行关键帧筛选,并基于反事实推理设计 checklist 及 prompt,再进行质检,进而生成可用数据,整体确保所生成数据的可靠性和可解释性。

OmniDrive Agent

作者提出了两个多模态基础模型框架 Omni-L 和 Omni-Q,探讨了 LLM 在自动驾驶任务中的集成方式。

这两个方案分别代表了“从 2D 向 3D 迁移”与“将现有 3D 感知融入 VLM”的两种范式,论文实验证明前者更高效。

方法与技术方案

OmniDrive Dataset 生成技术

Step1:筛选面向路径规划的关键帧

    使用 CLIP 模型从 nuScenes 数据集中提取正前视图图像的语义 embeddings,使用这些 embeddings 做 K-means 聚类,选出前 20% 的聚类中心帧。目标是覆盖如红绿灯、道路标志、车辆、行人等静态与动态要素。再基于自车未来轨迹的动态行为做聚类,以期保留动态行为多样的场景,例如:左转、急刹、变道等。

Tips:

CLIP 是 OpenAI 在 2021 年提出的一个视觉-语言对齐模型,全称是 Contrastive Language–Image Pretraining,它的基本思想是,输入一张图像和一段文本,训练一个模型,让图像和描述这张图的文本之间的表示距离尽可能接近(相似),同时让不相关图文的表示距离尽可能远。

Step2:设计反事实推理 checklist 及 prompt

上一步聚类了所有原始轨迹,提取代表性的轨迹类别,每个类别代表一种行为(如左转、右转、加速)。这一步生成 prompt 时,会对某一具体场景,模拟其它可能的驾驶行为(Simulated trajectories)。接着,通过一个基于交通规则的 checklist 来评估这些模拟轨迹是否合法或安全。这种方式既拓展了数据的多样性,也为后续的大模型生成问答提供了更扎实的训练语料。

Tips:

比如这个场景中真实的车辆是“右转”,那么就在这个同样的环境中,模拟左转、直行、掉头、加速等轨迹。这就构成了反事实推理:如果不是右转,而是左转会怎么样?如果掉头会不会违章?

checklist

这边 checklist 应该只是作为生成完整 prompt 中间过程的辅助工具。

对于一些固定的交通违规类型(比如:撞上障碍物、越界、闯红灯),使用已有的数据标注,用程序规则直接判断。

仅靠前面这些已有标注,无法覆盖所有交通规则,比如一些复杂语义问题。因此,作者将模拟轨迹转换为高层决策信息,再用 GPT-4 对图像进行分析,判断这些行为是否符合交通规则、是否安全。

Tips:

复杂语义、高层决策信息是指,比如这个轨迹是换道?加速?变道?超车?属于哪个车道?打算和哪个目标互动?换道时是否打灯?当前环境是否适合变道?与对向车道是否安全?

总结 prompt

    Caption: 用自然语言描述图像场景,简化原始复杂 3D 感知信息,让 GPT 更好地理解环境,提高 Q&A 数据质量。

    Expert trajectory & Relevant objects: 从 nuScenes 拿来的真实轨迹,把轨迹分类为左转、直行、加速等语义行为。另外,在轨迹附近 3 秒内靠得比较近的物体,供 GPT 理解刻画场景中可能产生交互的关键元素。

    Simulated trajectories & checklist: 模拟当前场景可能的驾驶行为,配合 checklist 得到各种可能驾驶行为的评估结果。

Step3:生成 Q&A

将前面的 prompt 输入给 GPT-4,并设计了 Question?(并没有看到是人为设计还是自动设计的)然后由 GPT-4 基于 prompt 自动生成 Answer,另外还加入了人工审核,确保最终的数据质量是可靠的。一旦 prompt & pipeline 成熟,具备泛化能力,就开始大规模自动生成数据。

OmniDrive Agent

Omni-L 促使 MLP 从 LLaVA 向多视角图像特征与语义 embedding 对齐的方向转变。Omni-Q 的灵感来自 StreamPETR 的 BEV 架构,并结合了Q-Former 的设计,以构建 LLM 与传统 3D 自动驾驶任务之间的交互。两者共享一个视觉 encoder 来提取多视角特征,提取的图像特征融合了位置编码,然后输入给特征映射模块。在这个特征映射模块中,视觉特征和文本特征进行了对齐,然后再输入给 LLM,形成文本生成任务。

Omni-L 和 Omni-Q 的主要区别是中间的特征映射模块,Omni-L 侧重于视觉-语言特征对齐,Omni-Q 侧重于 3D 感知任务。

Omni-L

Omni-L 借鉴了 LLaVA 的设计思想,用一个简单的多层感知机(MLP),把图像 encoder 提取的视觉特征送入语言模型之前,进行对齐。这个 MLP 的作用是把图像的特征投影到语言模型可以理解的空间里

LLaVA 原来只处理单张图像。Omni-L 支持多视图图像,另外,为了让 LLM 区分图像是从哪里拍的,还给每个图像 patch(图像块)都加上了 3D 位置编码。

合理推测,让 LLM 针对 2D 图像建立 3D 空间语义理解的核心在于:

    3D 位置编码把图像的特征投影到语言模型可以理解的空间里,即将 2D 图像与文本特征对齐3D 场景空间的结构化、高质量的 Prompt

Plugin:

LLaVA 论文:Visual Instruction Tuning

Omni-Q

Omni-Q 模型结合了两种技术路线:Q-Former(用于将视觉特征和语言模型对齐的模块,来自 BLIP-2)和StreamPETR(基于稀疏查询的 3D 感知模型,使用查询机制来感知 3D 场景)。

Omni-Q 的目标是让 VLM 具备空间定位和多模态生成能力。因此,Omni-Q 主要包括两类查询:

这两种查询在 Projector 的 Transformer decoder 中进行自注意力交互。然后从图像中进行跨模态的信息聚合,即交叉注意力交互。

Plugin:

BLIP-2 论文:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode

StreamPETR 论文:Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

实验结果与贡献

训练策略

2D 预训练 + 3D 微调。

Omni-L 和 Omni-Q 在功能定位上不同,前者目标是从多视角 2D 图像 + 文本中建立对 3D 场景的语义理解和对齐,例如识别“哪个车在我左侧”、“是否闯红灯”等;后者专注于将 3D 感知任务中的输出结果(如轨迹、检测框)转化为文本描述或问答结果,即从 3D 感知到语言生成。那为什么能共用一套训练策略?

因为虽然任务不同,但底层结构是高度共享的,包括:

这三者的连接方式是类似的,所以:

阶段如何适用于 Omni-L如何适用于 Omni-Q
2D 预训练让模型学会从多图像中提取有用语义、对齐语言空间初始化视觉语言对齐模块(如 Q-Former),打通图像到文本的通道
3D 微调用多视角图像 + 3D提示词(prompt)帮助模型建立空间语义理解加入 3D 感知模型(如 StreamPETR)的输出,监督模型生成正确自然语言

实施细节

    视觉编码器:EVA-02-L,其输出特征是对齐文本语义空间的,跟 CLIP 类似

    2D Pretraining 阶段:沿用 LLaVA v1.5 的训练策略,这个阶段主要是训练视觉特征 → Q-Former/MLP Projector → LLM 之间的基本语义对齐能力

    3D Finetuning 阶段:只讲了不同模块 Optimizer 和超参数设置,没看到其他细节

    其他变体:作者还尝试了 BEV-MLP 路线,探索用 BEV 空间作为语义场景表示,是否更利于语言生成和对齐。

数据集和评估指标

两种数据集:作者自建的数据集 OmniDrive,公开数据集 DriveLM

OmniDrive

在 OmniDrive 上支持以下几种任务:

任务类型说明对应评估指标
Captioning包括场景描述和关注目标选择使用语言生成指标:- CIDEr: 句子相似度指标,衡量生成描述与参考描述的相似性
Open-loop Planning预测未来轨迹,但不执行,仅做离线评估沿用 BEV-Planner 的指标:- Collision Rate:预测轨迹中与障碍物发生碰撞的比例

DriveLM

DriveLM ****是一个已有的公开多模态自动驾驶语言理解数据集,用于测试模型在图视觉问答(Graph Visual Question Answering,GVQA )任务中的表现。

评估指标:

实验结论

OmniDrive Agent

    使用 VLM 并加入车辆自身状态时,Omni-L/Q 在开环路径规划的表现可以接近传统最优方法。

    和 BEV-Planner 的结论一致:车辆自身状态是规划模型的关键信息,加上之后性能显著提升。

    轨迹对齐 ≠ 真正的语义合理性,语言模型如果过于依赖自车状态,可能忽略其他关键视觉线索,导致语义上不安全。

    Omni-L 拥有更强的视觉语言建模能力,在没有自车状态帮助的情况下依然能保持较好表现。

    问答式训练能提升模型在 open-loop planning 中对分布建模的泛化能力,且增强了语言模型对规划语义的理解,提升了路径安全性。

    Omni-L 在语言主导的反事实推理任务中表现更优,适用于需要语义推理的场景;而 Omni-Q 借助 3D 感知监督,在空间理解任务(如碰撞预测)中召回率更高;仅使用 BEV+MLP 方法表现不佳。

OmniDrive Dataset

    如果只用 DriveLM 数据集训练,模型得分是 53%;加入 OmniDrive 数据集后,提升了 3 个百分点,说明 OmniDrive 对泛化能力和任务理解都有帮助。

    即使已经用了 LLaVA-665K 这种大规模通用 VLM 预训练数据,再加 OmniDrive 依然显著提升性能。

    贡献上来说,OmniDrive Dataset 在大规模、自动化的前提下,通过反事实校验与人工验证机制,保持了标注的高质量。

总结

作者提出了 OmniDrive 框架,通过构建反事实 3D 驾驶问答流程,结合语言模型与多视图感知,实现了高质量数据生成与显著性能提升。两个模型 Omni-L 与 Omni-Q 分别展示了语言-视觉对齐与3D感知融合在智能驾驶中的潜力。但目前的评估仍局限于开环推理,尚未考虑多车交互下的闭环反馈,后续将借助更真实的仿真环境进一步优化。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OmniDrive 自动驾驶 视觉语言模型 反事实推理 3D理解
相关文章