机器之心 3小时前
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

HERMES 提出了一种创新的自动驾驶世界模型统一框架,有效融合了 3D 场景的深度理解与未来动态的精准生成。该模型通过 Bird’s-Eye View(BEV)特征统一空间,将多路环视图像编码至统一的俯视视角,保留了精确的空间几何关系和丰富的语义细节。核心在于引入“世界查询”机制,将当前场景的知识注入大语言模型(LLM),再通过“当前-未来”连接模块引导未来场景的预测。这种统一框架不仅解决了 LLM 输入长度限制,更实现了理解与生成任务的协同提升,在 nuScenes 等数据集上展现出优于现有方法的性能,为构建更智能可靠的自动驾驶系统提供了新路径。

💡 BEV特征统一空间:HERMES 采用鸟瞰图(BEV)作为核心场景表达,将六路环视图像编码成紧凑的俯视视角表征,有效解决了 LLM 输入长度限制,并保留了多视图图像间的精确空间几何关系和丰富的语义细节,为后续统一处理奠定基础。

🌐 世界查询与“当前-未来”连接:通过“世界查询”机制,HERMES 将场景核心信息提取为可学习 Token,注入 LLM 进行理解,再通过“当前-未来”连接模块将理解成果传递给未来场景预测,实现了 3D 场景理解与未来生成任务的深度融合与相互促进。

🚀 联合训练与优化:HERMES 通过联合优化语言建模损失(用于场景理解、问答)和点云生成损失(用于未来场景预测),在两个看似独立的任务之间找到了最佳平衡点,实现了性能的协同提升,验证了统一建模的有效性与优越性。

🎯 实验验证与可视化:在 nuScenes 等数据集上,HERMES 在未来生成任务上显著优于现有模型,3 秒未来点云误差降低 32.4%;在理解任务上,CIDEr 提升 8%。可视化结果表明,HERMES 能生成时序连贯、几何精确的未来点云,并能精准描述驾驶场景细节,展现了强大的综合能力。

2025-08-14 12:55 北京

HERMES 提出了一个统一框架,为自动驾驶世界模型提供了一个简洁、有效且统一的新范式。

本文第一作者周鑫、共同第一作者梁定康,均为华中科技大学博士生,导师为白翔教授。合作者包括华中科技大学涂思凡,旷视科技丁宜康,迈驰智行陈习武、谭飞杨,香港大学赵恒爽助理教授。


在复杂的城市场景中,HERMES 不仅能准确预测未来三秒的车辆与环境动态(如红圈中标注的货车),还能对当前场景进行深度理解和问答(如准确识别出 “星巴克” 并描述路况)。


研究背景与动机

近年来,自动驾驶技术取得了令人瞩目的进展。要让智能汽车安全高效地行驶在复杂的真实道路上,车辆必须具备两大核心能力:当前环境的深刻理解(例如识别交通参与者、理解交通规则、推理场景语义)以及对未来场景的准确预测(如预测行人、车辆的运动,提前规避风险)。

目前,学术界和工业界的主流方案往往将 “理解” 和 “生成” 分开处理:


然而,现实中的自动驾驶决策,恰恰需要这两种能力的深度融合。例如,车辆不仅要能描述 “前方有行人正在通过斑马线”,还要能预测 “3 秒后这位行人将到达路中央,需提前减速”。 

构建这样一个统一的模型面临着诸多挑战:

首先,如何将多达六路的高分辨率环视图像高效地输入给有 token 长度限制的 LLM,并保持空间信息不失真?

其次,如何在一个模型内,让 “理解” 和 “生成” 这两个看似独立的任务能够相互促进,而非相互干扰?如何将强大的世界知识与前瞻性的场景预测无缝集成到一个统一的框架中,成为亟需突破的难点。

方法:HERMES 的统一框架

面对上述挑战,HERMES 提出了一个统一框架,其核心设计思想是通过一个共享的 LLM,同时驱动理解与生成两大任务。

HERMES 的核心设计


鸟瞰图(BEV)特征统一空间

HERMES 采用 Bird’s-Eye View(BEV,鸟瞰图)作为统一的场景表达。它首先通过一个 BEV Tokenizer 将六路环视图像高效地编码并投影到一个紧凑的俯视视角表征中。这种做法不仅有效解决了 LLM 输入长度的限制,更重要的是保留了多视图图像之间的精确空间几何关系和丰富的语义细节。无论后续任务是理解还是生成,模型都能在同一套高质量的 BEV 特征空间中自由切换,为后续的统一处理奠定了坚实基础。

世界查询与 “当前 - 未来” 连接

为了打破理解与生成之间的壁垒,HERMES 引入了世界查询(World Queries)机制。这是一组从 BEV 特征中通过自适应采样(如最大池化)提取出的、代表场景核心信息的可学习 Token。其工作流程如下:

1. 知识注入:将 BEV 特征通过自适应采样(如最大池化)转化为一组表达世界知识的查询向量,再把世界查询与 BEV 特征、用户文本指令一同被送入 LLM。在 LLM 处理语言理解任务(如回答问题)的过程中,世界查询通过因果注意力机制(causal attention)吸收和编码了关于当前场景的丰富世界知识和上下文信息。

2. 知识传递:经过 LLM 处理后,这些富含知识的世界查询被一个 “当前 - 未来” 连接模块(Current to Future Link)所使用。该模块通过交叉注意力将世界查询中蕴含的 “理解” 成果,有效地注入到对未来场景的预测中,引导模型生成未来多帧的 BEV 特征。

3. 统一输出:最终,一个共享的渲染器(Shared Render)将当前和未来的 BEV 特征解码为 3D 点云序列,同时完成对当前场景的理解和对未来场景的生成。

联合训练与优化

HERMES 的训练过程同样体现了其统一性。模型通过两个目标进行联合优化:

1. 语言建模损失:采用标准的 Next Token Prediction 损失函数,优化模型在场景理解、问答和描述任务上的能力。

2. 点云生成损失:采用 L1 损失函数,监督模型生成的当前及未来点云与真实点云之间的差异,优化生成精度。

通过这种端到端的联合训练,HERMES 得以在两个任务之间找到最佳平衡点,实现性能的协同提升。

实验结果与可视化分析

多任务对比实验


HERMES 在 nuScenes、OmniDrive-nuScenes 数据集上,评测了场景理解和未来生成两大任务。

可视化

HERMES 不仅能够生成时序连贯且几何精确的未来点云,还能对驾驶场景的细节进行精准描述。无论是预测动态物体的移动,还是识别路边的商家,HERMES 都展现出强大的综合能力。更多可视化结果请访问项目主页。


总结与未来展望

HERMES 为自动驾驶世界模型提供了一个简洁、有效且统一的新范式。它通过利用 BEV 表征和世界查询,成功弥合了 3D 场景理解与未来生成之间的鸿沟,为开发更智能、更可靠的自动驾驶系统迈出了坚实的一步。

未来,期望在此框架下进一步探索更复杂的感知任务,向着能够全面认知物理世界的通用驾驶大模型的目标不断迈进。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

HERMES 自动驾驶 世界模型 场景理解 场景生成
相关文章