理想 TOP2 06月19日 01:10
理想一篇论文入选近半年端到端自动驾驶推荐度最高的10篇论文
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入探讨了深蓝AI推荐的、关于端到端自动驾驶的TransDiffuser论文。该论文由理想、中科院计算所和清华大学联合发表,核心在于利用扩散模型生成驾驶轨迹。TransDiffuser通过编码器-解码器结构,融合多模态感知信息,如图像、激光雷达数据和运动状态,生成高质量且多样化的轨迹。文章详细介绍了Diffusion模型的工作原理,VLA与VLM的区别,以及TransDiffuser的架构细节、关键创新点和未来发展方向,为理解端到端自动驾驶技术提供了重要参考。

🚗Diffusion(扩散模型)是一种生成数据的模型,通过加噪声和去噪的过程来学习数据分布,用于生成驾驶轨迹。理想的VLA采用diffusion生成action token,再解码成最终的驾驶轨迹。

💡VLA与VLM的区别在于,VLM是两个系统,侧重模仿学习和建议,而VLA是一个系统,具备快慢思考能力,能直接进行语意思考。TransDiffuser是理想VLA架构的一部分,专注于生成轨迹。

⚙️TransDiffuser的核心架构是基于编码器-解码器,输入多模态感知信息,生成多样化轨迹。它使用场景编码器处理图像、激光雷达数据,并结合运动状态信息,作为去噪解码器的条件输入,最终输出驾驶轨迹。

🚀TransDiffuser的关键创新点在于无锚点轨迹生成和多模态去相关优化。前者无需依赖锚点或预定义词汇表,直接生成轨迹;后者则通过减少表征空间冗余,提升轨迹多样性,解决了模式奔溃的问题。

深蓝学院 2025-06-18 19:44 四川

近半年端到端自动驾驶推荐度最高的10篇论文,是由深蓝AI调研了数十位自动驾驶一线研究者后得出的。

深蓝AI自己的定位是人工智能、机器人与自动驾驶的学习平台,受众是相关的技术从业人员。

原标题是“盘点|近半年「端到端自动驾驶」推荐度最高的10篇论文”,并没有带理想,这10篇论文本身也是去中心化排列的,不存在理想公关的部分。

TOP2非常明显得感知到过去一年,理想在面向自动驾驶从业群体的号的存在感越来越强,甚至可以说,如果是面向母语为中文的自动驾驶从业群体的号,在过去一年,已经不可能不多发几篇理想的内容。目前理想在面向AI从业群体的号的存在感,还不算特别强,还是有不少AI号主对理想做AI感知不强。

理想入选的论文是TransDiffuser, TOP2在25年5月18日详细分析了这篇论文《TransDiffuser: 理想VLA diffusion出轨迹的架构

读者不用被里面的名词吓着,TOP2经过认真思考,并结合预期的大多数读者的知识储备,做了不少专门解释,逻辑链很清晰,多读几遍能有收获的。

会先解释什么是Diffusion,再分享贾鹏25年3月英伟达GTC上关于理想VLA diffusion出轨迹的表述,最后分享TransDiffuser的架构细节/创新点/作者自己认为的局限性与未来方向。

额外提醒读者留意3点:

1.李想在24Q4电话会议上比喻端到端是猴子开车,VLM是副驾的人类,给猴子一些指令,VLA是主驾就是人类在开车。即我们合情预期,VLA的拟人感可以明显比VLM上一个台阶。

从技术架构来说,VLM是两个系统,系统1本质是通过模仿学习的方式端出轨迹,不具备任何语意理解的能力。(对应猴子比喻),系统2具备语意理解能力,但只能给猴子提建议。(对应副驾是人类的比喻)VLA是一个系统,具备快慢思考能力,这个系统本身就具备语意思考的能力(对应主驾是人的比喻)。顺带一提,VLM里系统2起作用的频率,远远没有理想车机AI 推理界面里,不断输出文字解读的频率那么高,一般城区小二三十公里实际就几次真正起作用,高速一般没作用。

2.可能现在还有不少人以为理想目前的VLA可以直接输出油门方向盘电信号,这种action,但贾鹏在GTC上分享的很清楚,先输出action token,再用diffusion生成轨迹。理想在这块上没有进行任何模糊处理或刻意误导。理想DriveVLM论文通讯作者赵行老师在24年6月明确表达输出轨迹,执行跟不上是常见的事,以及直接输出control比输出轨迹难。

3.TransDiffuser在未来方向里引用了OpenVLA和Emma这两篇论文,OpenVLA明确输出的是机器人控制指令,Emma输出的是行驶轨迹。合情推测理想的VLA将来有可能直接输出油门方向盘电信号,但不会是今年。今年做不到,是因为直接输出油门方向盘信号就是更难的。

什么是Diffusion

Diffusion(扩散模型)是一种生成数据的模型,除了Diffusion外,还有其他生成模型,比如GAN(生成对抗网络)、VAE(变分自编码器)等。不同的生成模型在核心思想与生成数据的方法上有区别。

Diffusion的核心思想是通过加噪声(Forward Process)和去噪(Reverse Process)的过程来学习数据的分布。可以想象成一种逆向拼图: 先把一张完整的图片或其他数据打乱成一片模糊,再通过学习如何一步步还原它。

去噪的过程是训练一个神经网络,让它去预测每一步的噪声,然后去除噪声,生成目标数据。

贾鹏25年3月英伟达GTC上关于理想VLA diffusion出轨迹的表述

VLM是由端到端+VLM两个模型组成的,VLM的两个快慢系统都是输出的轨迹。VLA是一个模型具备快慢思考能力。

VLA的快思考与慢思考输出的都是action token。Action token是对周围环境和自车驾驶行为的编码,整个模型推理过程都实时发生在车端,输出action token,利用diffusion将action token解码成最终的驾驶轨迹。

Diffusion不仅会生成自车轨迹,还预测其他车辆和行人轨迹,大幅度提升复杂交通环境中的博弈能力。

Diffusion另外一个巨大优势,根据外部的条件输入改变生成结果,在图像生成领域被称为多风格生成,理想使用了多层的Dit去实现理想同学开快点我赶时间这样的功能。

Diffusion模型有一个显著的挑战,就是它的生成效率极低,需要很多步才能成功生成稳定的轨迹。为了解决这一问题,理想采用了常微分方程的ode采样器大幅加速的diffusion生成过程,使其在2~3步内就可以生成稳定的轨迹,解决生成效率低的问题。

TransDiffuser的架构细节

2025年5月14日理想&中科院计算所&清华发布TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving

论文链接:

https://www.arxiv.org/pdf/2505.09315

理想为第一单位,理想的詹锟与计算所的Sheng Sun为共同通讯作者。

TransDiffuser这篇论文就是更细节的讲如何diffusion出轨迹。

TransDiffuer是一个基于编码器-解码器结构的生成轨迹模型,核心目标是通过融合多模态感知信息(图像、激光雷达数据、运动状态信息),生成高质量的多样化轨迹。

架构分为两部分:

1.场景编码器(Scene Encoder): 负责处理多模态感知信息(图像和激光雷达),生成场景特征。

2.去噪解码器(Denoising Decoder): 基于DDPM扩散模型,通过迭代去噪生成轨迹,并引入多模态表征以提升多样性。

备注: DDPM(Denoising Diffusion Probabilistic Models)是扩散模型(Diffusion Model)的一种具体实现形式,而扩散模型是一个更广泛的生成模型家族。两者的关系类似于“苹果”和“水果”的关系:DDPM是扩散模型中的一种经典算法,但扩散模型还包括其他变体(如LDM、SDE-based扩散模型等)。

更细化的来说,场景编码器是输入前视相机图像,激光雷达点云数据,输出图像特征(记为Fimg)/激光雷达点云的编码特征(记为FLiDAR)/BEV(鸟瞰图)特征(记为Fbev)。

场景编码器的输出与运动状态信息结合,形成解码器的条件输入。

历史轨迹编码:

输入: 自车的历史轨迹(waypoints)

处理: 通过MLP(动作编码器)将其编码为动作嵌入(记为Embaction)

备注:路径点(waypoint)一般包含以下信息

位置: 车辆应经过的具体坐标

方向: 车辆在该点的朝向

速度: 车辆在该点的目标速度

时间戳: 路径点的生成时间(用于动态路径规划)

其他属性: 如车道边界偏移、道路类型、交通规则等(取决于具体应用)

当前状态编码:

输入: 当前自车状态(如速度、位置)

处理: 通过另一个MLP(自车状态编码器)生成自车状态嵌入(记为Embego)

将编码后的特征组 feat={Fbev, Fimg, FLiDAR, Embaction, Embego}作为去噪解码器的条件输入。

去噪解码器:

核心机制: 基于DDPM的迭代去噪过程。

备注: DDPM(Denoising Diffusion Probabilistic Models)是扩散模型(Diffusion Model)的一种具体实现形式,而扩散模型是一个更广泛的生成模型家族。两者的关系类似于“苹果”和“水果”的关系:DDPM是扩散模型中的一种经典算法,但扩散模型还包括其他变体(如LDM、SDE-based扩散模型等)。

输入: 噪声初始状态和场景-运动特征组(上文里的feat)。

处理流程:

前向扩散过程: 逐步向真实轨迹添加高斯噪声,生成噪声数据。

反向去噪过程: 模型学习从噪声中逐步恢复轨迹。

多头交叉注意力: 在每一步去噪中,解码器通过多头交叉注意力融合场景特征(Fbev, Fimg, FLiDAR)和运动特征(Embaction, Embego)。

输出: 通过累积解码器输出的连续动作(action),生成最终轨迹(waypoints序列)

备注: 上文解释了什么是waypoint(路径点),waypoints序列就是将多个路径点按顺序排列,形成一条连续的路径描述。例如,从起点到终点的路径可能由数百个路径点组成,每个点间隔0.5米或1米。

实现细节:

数据集: NAVSIM(包含1192个训练样本和136个测试样本)。

输入模态: 图像(8视角)+ LiDAR(5传感器)+ 自车状态。

批量大小: 256(分布于4个NVIDIA H20 GPU)。

扩散步数: 10步(训练和推理)。

输出轨迹: 8个waypoints,覆盖4秒时间范围。

性能指标: PDMS(Predictive Driver Model Score)达到94.85,优于现有方法(如Hydra-MDP++和GoalFlow)。

关键创新点:

无锚点轨迹生成:无需依赖锚点轨迹(anchor trajectories)或预定义词汇表(vocabulary),直接从多模态感知信息中生成轨迹。

多模态去相关优化(Muti-model representation decorrelation optimization mechanism):通过减少表征空间中的冗余相关性,目的是为了解决扩散模型生成轨迹时的模式奔溃(mod collapse)问题,提升生成轨迹的多样性。此外和对比学习等方法相比,该机制对批次大小不敏感,计算开销低。

备注: 模式奔溃指的是不同的随机噪声输入(random noise inputs)在去噪过程中收敛到相似的轨迹(converge to similar trajectories),生成的轨迹缺乏多样性。

论文作者认为的局限性与未来方向

局限性: 模型微调(Fine-tuning)的困难(包括perception ecoder)。

未来方向: 结合强化学习,以及参考OpenVLA这样的VLA模型。

备注: 微调(Fine-tuning)是训练大模型的关键步骤之一,训练大模型经过数据准备/预训练(Pre-training)/微调(Fine-tuning)/强化学习(RL)或人类反馈强化学习(RLHF)。

数据准备类比准备学习资料,预训练类比学习基础课程,微调类比适配特殊或具体任务,进行专业培训,强化学习类比通过导师反馈优化实战能力。

Perception Encoder在论文中指的是用于处理来自车辆传感器(如摄像头、LiDAR)的感知信息的编码器部分。目的是将复杂的环境感知数据转换为机器学习模型能够理解和利用的形式,以便后续步骤可以根据这些信息生成合理的驾驶轨迹。

加微信,进群深度交流理想长期基本面。不是车友群,也不是智驾群。

以下为深蓝AI的原文:


自UniAD(CVPR 2023 Best Paper)横空出世以来,端到端(E2E)自动驾驶已成为学术界与工业界共同追逐的热点。近两年间,创新成果不断涌现,各大顶会(CVPR/ICRA/NeurIPS)的自动驾驶端到端方向论文数量呈现指数级增长。

随着2025年将要过半,业界也涌现出了不少佳作。

那么,哪些是最「值得推荐」的高质量论文,值得我们反复研读?

为此,我们采访调研了数十位优秀的自动驾驶领域一线研究者,整理出了他们心目中认为的,「近半年左右,最推荐学习的10篇端到端自动驾驶领域论文」。

当然,我们深知:任何“推荐榜单”在技术洪流前,都只是沧海一粟。

本文所涉及的工作也绝不是唯一的答案,而只是探索的起点。

(这里仅为我们本次调研中推荐里出现频次最高的几篇,欢迎各位同仁在评论区补充你的推荐/自荐!)

1

近半年端到端自动驾驶领域

推荐阅读的10篇论文

(民榜,排名不分先后)

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

VLM-AD: End-to-End Driving through Vision-Language Model Supervision

EMMA: End-to-End Multimodal Model for Autonomous Driving

DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving

TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving

Distilling Multi-modal Large Language Models for Autonomous Driving

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder

Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving

机构:同济大学

推荐理由:该框架验证了视觉语言模型(VLM)与生成式规划结合的可能性;通过语言指令引导增强无地图场景泛化能力,为高鲁棒性自动驾驶规划提供了新范式。

论文内容:

作者通过鸟瞰图(BEV)特征提取与矢量化变换器,将多视角图像编码为结构化语义信息,并引入语言模态的常识知识(如交通规则、导航指令),弥合视觉与语言模态的语义鸿沟。

跨模态语言模型与自回归生成设计基于Transformer的生成模型,以自回归方式联合输出驾驶决策(如变道、避障)和细粒度轨迹。

并采用轻量化预训练架构(模型参数量仅0.4B),推理速度达188ms/帧,支持实时部署;通过语言指令引导(如“左转优先”),在无地图场景中泛化性能超越纯视觉方法15%。

文地址:https://arxiv.org/pdf/2501.08861

项目主页:https://github.com/ltp1995/GPVL

延展阅读:告别激光雷达?特斯拉之后,GPVL 用纯视觉方案实现 188ms 生成安全轨迹!

End-to-End Autonomous Driving through V2X Cooperation

2

端到端自动驾驶领域的

经典代表作

在端到端自动驾驶的发展历程中,以下几篇论文具有里程碑意义,一定程度上定义了技术演进的方向:

Planning-oriented Autonomous Driving

VAD: Vectorized Scene Representation for Efficient Autonomous Driving

End-to-end Autonomous Driving: Challenges and Frontiers

3

结语

端到端自动驾驶领域的研究正在飞速发展,不断涌现出创新性和实用性的成果。从早期的模块化设计到如今的端到端学习,从单一任务的优化到多任务的联合学习,从传统的感知和规划到如今融合了先进的人工智能技术如扩散模型、视觉语言模型等,这一领域的技术路线和研究范式正在经历深刻的变革。

本榜单仅供参考,欢迎各位专家和学者补充更多推荐阅读的论文。希望这份整理能够帮助大家更好地了解端到端自动驾驶领域的最新进展,并为未来的研究方向提供一些启示。

技术的星辰大海,永远属于敢于亮剑的开拓者。

(再次鸣谢参与本次调研采访的所有一线学者们!)


加微信,进群深度交流理想长期基本面。不是车友群。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

TransDiffuser 端到端自动驾驶 扩散模型 VLA 理想
相关文章