我爱计算机视觉 02月12日
首个统一3D场景理解与生成的自动驾驶世界模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

HERMES是首个统一3D场景理解与生成的自动驾驶世界模型,旨在解决当前世界模型在场景理解方面的不足。它通过将多视角场景的几何与语义信息整合到统一的BEV表示中,并利用世界查询机制,实现了当前三维环境文本理解与未来场景生成之间的高效信息流动。实验结果表明,HERMES在场景生成和场景理解方面均取得了显著的性能提升,为自动驾驶的感知与预测任务提供了强有力的工具。该模型通过统一的框架,打破了场景理解与生成任务的边界,为世界模型的研究提供了全新的视角。

💡HERMES模型采用鸟瞰视图 (BEV) 表示,将多视角空间信息压缩为统一表示,缓解了LLM输入长度限制问题,同时保留了几何空间关系和多视角交互信息。

🌐HERMES提出了世界查询 (World Queries) 机制,利用LLM的因果注意力机制,从文本token中提取世界知识,并将这些信息注入到对应的未来帧中,实现理解与生成任务的深度结合。

🎯HERMES 通过多任务联合优化,同时优化理解与生成任务,通过自回归语言建模任务提升对当前场景的语义理解能力,并通过监督未来点云的生成过程优化模型的几何生成能力。

📊实验结果显示,HERMES 在 nuScenes 数据集上,相比 CVPR 2024 ViDAR,点云生成误差降低了 32.4%,在 OmniDrive-nuScenes 数据集上,CIDEr 指标提升了 8.0%。

52CV 2025-02-12 19:03 甘肃




关注公众号,发现CV技术之美




本篇分享论文HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation,介绍首个统一3D场景理解与生成的自动驾驶世界模型。


背景

在自动驾驶领域,世界模型(Driving World Models, DWMs)旨在预测未来场景演变、提升系统感知与决策能力,并成为近期业界的热点。然而,当前的DWM主要专注于场景生成任务,尽管能够预测环境未来的变化,却在场景理解能力上表现不足,难以全面解释驾驶环境。这种割裂使得模型在动态驾驶场景中的信息处理与预测能力大打折扣。

与此同时,视觉语言模型(Vision-Language Models, VLMs)在场景理解任务中展现了强大的潜力,能够处理复杂的视觉问答和场景描述。然而,它们缺乏对未来场景的建模能力,难以为自动驾驶系统提供前瞻性的预测。这一现状凸显出一个关键挑战:如何在单一框架内同时实现对驾驶环境的深刻理解与未来场景的精准预测?

针对这一挑战,本文提出了HERMES,一个统一驾驶世界模型。HERMES实现了场景理解与生成的一体化建模,通过将多视角场景的几何与语义信息整合到统一的表示中,同时利用世界查询机制促进了当前三维环境文本理解与未来场景生成之间的高效信息流动。HERMES的提出不仅打破了场景理解与生成任务的边界,也为世界模型的研究提供了全新的视角。


名字的来源:HERMES

HERMES这一名称源自于古希腊神话中的赫尔墨斯(Hermes),他是众神的使者,能够迅速地传递信息,跨越天地,连接不同的世界。本文提出的模型在一个框架内能够同时进行3D场景理解未来场景生成,还能够实现知识的传递与交互,高效地实现驾驶环境的预测与理解。


方法:HERMES 的设计

HERMES的设计旨在通过Bird’s-Eye View (BEV)场景表征形式与世界查询(World Queries)机制实现场景理解与生成的无缝衔接和整合。其核心架构如下图所示:

1) 鸟瞰视图 (BEV) 表示

HERMES使用BEV表示将多视角空间信息压缩为统一表示,尽量缓解单独处理6张图片造成的LLM输入长度限制问题,同时保留几何空间关系和多视角交互信息。具体包括:

2) 世界查询 (World Queries) 机制

为实现理解与生成任务的深度结合,HERMES提出了世界查询机制,使用Flattened BEV以池化的方式初始化一系列World Queries,利用LLM的因果注意力机制,从这些queries从文本token中提取世界知识。

为了将World Queries的信息注入进对应的未来帧,使用跨时间链接模块(current to the future link),将当前场景BEV特征与未来场景特征连接,通过多个跨注意力块,捕获场景演化的时空关系,并得到一系列未来帧BEV特征()。将生成的未来BEV特征转换为点云表示,以生成未来场景。

3) 多任务联合优化

HERMES 同时优化理解与生成任务,通过以下目标函数实现两者的协同训练:


结果

HERMES 在多个数据集上的实验表明:

    场景生成:在 nuScenes 数据集上,相比CVPR 2024 ViDAR,HERMES 的点云生成误差降低了 32.4%,尤其在未来 3 秒的预测中表现优异。

    场景理解:在 OmniDrive-nuScenes 数据集上,HERMES 的 CIDEr 指标提升了 8.0%。

Demo:

更多Demo可以在项目仓库/主页中找到:https://github.com/LMD0311/HERMES https://lmd0311.github.io/HERMES/


总结

HERMES 作为首个统一的3D场景理解与生成模型,通过统一的BEV表示和世界查询机制,为自动驾驶的感知与预测任务提供了强有力的工具。

最新 AI 进展报道
请联系:amos@52cv.net

END




欢迎加入「3D场景理解交流群?备注:3D




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

HERMES 自动驾驶 世界模型 场景理解 场景生成
相关文章