52CV 2025-02-12 19:03 甘肃

关注公众号，发现CV技术之美

本篇分享论文HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation，介绍首个统一3D场景理解与生成的自动驾驶世界模型。

论文：https://arxiv.org/abs/2501.14729

仓库：https://github.com/LMD0311/HERMES

主页：https://lmd0311.github.io/HERMES/

背景

在自动驾驶领域，世界模型（Driving World Models, DWMs）旨在预测未来场景演变、提升系统感知与决策能力，并成为近期业界的热点。然而，当前的DWM主要专注于场景生成任务，尽管能够预测环境未来的变化，却在场景理解能力上表现不足，难以全面解释驾驶环境。这种割裂使得模型在动态驾驶场景中的信息处理与预测能力大打折扣。

与此同时，视觉语言模型（Vision-Language Models, VLMs）在场景理解任务中展现了强大的潜力，能够处理复杂的视觉问答和场景描述。然而，它们缺乏对未来场景的建模能力，难以为自动驾驶系统提供前瞻性的预测。这一现状凸显出一个关键挑战：如何在单一框架内同时实现对驾驶环境的深刻理解与未来场景的精准预测？

针对这一挑战，本文提出了HERMES，一个统一驾驶世界模型。HERMES实现了场景理解与生成的一体化建模，通过将多视角场景的几何与语义信息整合到统一的表示中，同时利用世界查询机制促进了当前三维环境文本理解与未来场景生成之间的高效信息流动。HERMES的提出不仅打破了场景理解与生成任务的边界，也为世界模型的研究提供了全新的视角。

名字的来源：HERMES

HERMES这一名称源自于古希腊神话中的赫尔墨斯（Hermes），他是众神的使者，能够迅速地传递信息，跨越天地，连接不同的世界。本文提出的模型在一个框架内能够同时进行3D场景理解与未来场景生成，还能够实现知识的传递与交互，高效地实现驾驶环境的预测与理解。

方法：HERMES 的设计

HERMES的设计旨在通过Bird’s-Eye View (BEV)场景表征形式与世界查询（World Queries）机制实现场景理解与生成的无缝衔接和整合。其核心架构如下图所示：

1) 鸟瞰视图 (BEV) 表示

HERMES使用BEV表示将多视角空间信息压缩为统一表示，尽量缓解单独处理6张图片造成的LLM输入长度限制问题，同时保留几何空间关系和多视角交互信息。具体包括：

特征压缩：为了保证方法的简洁，直接使用BEVFormer作为BEV Tokenizer；并简单地使用卷积下采样模块，对场景特征进行压缩，在相比常用的BEV特征空间压缩4倍，得到高效且语义丰富的BEV表示（Flattened BEV, ）。通过保留空间几何关系，确保多视角特征能够支持生成与理解任务。

点云渲染器(Render)：将下采样后的BEV特征再次通过插值和卷积上采样回原本的大小。使用三维卷积将二维的BEV特征(Encoded BEV, )变换为体素特征。再使用体渲染技术预测不同射线方向的深度以得到环境点云。

2) 世界查询 (World Queries) 机制

为实现理解与生成任务的深度结合，HERMES提出了世界查询机制，使用Flattened BEV以池化的方式初始化一系列World Queries，利用LLM的因果注意力机制，从这些queries从文本token中提取世界知识。

为了将World Queries的信息注入进对应的未来帧，使用跨时间链接模块（current to the future link），将当前场景BEV特征与未来场景特征连接，通过多个跨注意力块，捕获场景演化的时空关系，并得到一系列未来帧BEV特征（）。将生成的未来BEV特征转换为点云表示，以生成未来场景。