TransDiffuser: 理想VLA diffusion出轨迹的架构

原创理想TOP2 2025-05-18 21:08 四川

读者不用被里面的名词吓着，关键点都做了解释，多读几遍能有收获的。

读者不用被里面的名词吓着，本文经过认真思考，并结合预期的大多数读者的知识储备，做了不少专门解释，逻辑链很清晰，多读几遍能有收获的。

本文结构:先解释什么是Diffusion，再分享贾鹏25年3月英伟达GTC上关于理想VLA diffusion出轨迹的表述，最后分享TransDiffuser的架构细节/创新点/作者自己认为的局限性与未来方向。

额外提醒读者留意3点:

1.李想在24Q4电话会议上比喻端到端是猴子开车，VLM是副驾的人类，给猴子一些指令，VLA是主驾就是人类在开车。即我们合情预期，VLA的拟人感可以明显比VLM上一个台阶。

从技术架构来说，VLM是两个系统，系统1本质是通过模仿学习的方式端出轨迹，不具备任何语意理解的能力。(对应猴子比喻)，系统2具备语意理解能力，但只能给猴子提建议。(对应副驾是人类的比喻)VLA是一个系统，具备快慢思考能力，这个系统本身就具备语意思考的能力(对应主驾是人的比喻)。顺带一提，VLM里系统2起作用的频率，远远没有理想车机AI 推理界面里，不断输出文字解读的频率那么高，一般城区小二三十公里实际就几次真正起作用，高速一般没作用。

2.可能现在还有不少人以为理想目前的VLA可以直接输出油门方向盘电信号，这种action，但贾鹏在GTC上分享的很清楚，先输出action token，再用diffusion生成轨迹。理想在这块上没有进行任何模糊处理或刻意误导。理想DriveVLM论文通讯作者赵行老师在24年6月明确表达输出轨迹，执行跟不上是常见的事，以及直接输出control比输出轨迹难。

3.TransDiffuser在未来方向里引用了OpenVLA和Emma这两篇论文，OpenVLA明确输出的是机器人控制指令，Emma输出的是行驶轨迹。合情推测理想的VLA将来有可能直接输出油门方向盘电信号，但不会是今年。今年做不到，是因为直接输出油门方向盘信号就是更难的。

什么是Diffusion

Diffusion(扩散模型)是一种生成数据的模型，除了Diffusion外，还有其他生成模型，比如GAN(生成对抗网络)、VAE(变分自编码器)等。不同的生成模型在核心思想与生成数据的方法上有区别。

Diffusion的核心思想是通过加噪声(Forward Process)和去噪(Reverse Process)的过程来学习数据的分布。可以想象成一种逆向拼图: 先把一张完整的图片或其他数据打乱成一片模糊，再通过学习如何一步步还原它。

去噪的过程是训练一个神经网络，让它去预测每一步的噪声，然后去除噪声，生成目标数据。

贾鹏25年3月英伟达GTC上关于理想VLA diffusion出轨迹的表述

VLM是由端到端+VLM两个模型组成的，VLM的两个快慢系统都是输出的轨迹。VLA是一个模型具备快慢思考能力。

VLA的快思考与慢思考输出的都是action token。Action token是对周围环境和自车驾驶行为的编码，整个模型推理过程都实时发生在车端，输出action token，利用diffusion将action token解码成最终的驾驶轨迹。

Diffusion不仅会生成自车轨迹，还预测其他车辆和行人轨迹，大幅度提升复杂交通环境中的博弈能力。

Diffusion另外一个巨大优势，根据外部的条件输入改变生成结果，在图像生成领域被称为多风格生成，理想使用了多层的Dit去实现理想同学开快点我赶时间这样的功能。

Diffusion模型有一个显著的挑战，就是它的生成效率极低，需要很多步才能成功生成稳定的轨迹。为了解决这一问题,理想采用了常微分方程的ode采样器大幅加速的diffusion生成过程，使其在2~3步内就可以生成稳定的轨迹，解决生成效率低的问题。

TransDiffuser的架构细节

2025年5月14日理想&中科院计算所&清华发布TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving

论文链接：

https://www.arxiv.org/pdf/2505.09315

理想为第一单位，理想的詹锟与计算所的Sheng Sun为共同通讯作者。

TransDiffuser这篇论文就是更细节的讲如何diffusion出轨迹。

TransDiffuer是一个基于编码器-解码器结构的生成轨迹模型，核心目标是通过融合多模态感知信息（图像、激光雷达数据、运动状态信息），生成高质量的多样化轨迹。

架构分为两部分：

1.场景编码器(Scene Encoder): 负责处理多模态感知信息(图像和激光雷达)，生成场景特征。

2.去噪解码器(Denoising Decoder): 基于DDPM扩散模型，通过迭代去噪生成轨迹，并引入多模态表征以提升多样性。

备注: DDPM（Denoising Diffusion Probabilistic Models）是扩散模型（Diffusion Model）的一种具体实现形式，而扩散模型是一个更广泛的生成模型家族。两者的关系类似于“苹果”和“水果”的关系：DDPM是扩散模型中的一种经典算法，但扩散模型还包括其他变体（如LDM、SDE-based扩散模型等）。

更细化的来说，场景编码器是输入前视相机图像，激光雷达点云数据，输出图像特征(记为Fimg)/激光雷达点云的编码特征(记为FLiDAR)/BEV(鸟瞰图)特征(记为Fbev)。

场景编码器的输出与运动状态信息结合，形成解码器的条件输入。

历史轨迹编码:

输入: 自车的历史轨迹(waypoints)

处理: 通过MLP(动作编码器)将其编码为动作嵌入(记为Embaction)

备注:路径点(waypoint)一般包含以下信息

位置: 车辆应经过的具体坐标

方向: 车辆在该点的朝向

速度: 车辆在该点的目标速度

时间戳: 路径点的生成时间(用于动态路径规划)

其他属性: 如车道边界偏移、道路类型、交通规则等(取决于具体应用)

当前状态编码:

输入: 当前自车状态(如速度、位置)

处理: 通过另一个MLP(自车状态编码器)生成自车状态嵌入(记为Embego)

将编码后的特征组 feat={Fbev, Fimg, FLiDAR, Embaction, Embego}作为去噪解码器的条件输入。

去噪解码器:

核心机制: 基于DDPM的迭代去噪过程。

输入: 噪声初始状态和场景-运动特征组(上文里的feat)。

处理流程:

前向扩散过程: 逐步向真实轨迹添加高斯噪声，生成噪声数据。

反向去噪过程: 模型学习从噪声中逐步恢复轨迹。

多头交叉注意力: 在每一步去噪中，解码器通过多头交叉注意力融合场景特征（Fbev, Fimg, FLiDAR）和运动特征（Embaction, Embego）。

输出: 通过累积解码器输出的连续动作（action），生成最终轨迹（waypoints序列）

备注: 上文解释了什么是waypoint(路径点)，waypoints序列就是将多个路径点按顺序排列，形成一条连续的路径描述。例如，从起点到终点的路径可能由数百个路径点组成，每个点间隔0.5米或1米。

实现细节:

数据集: NAVSIM（包含1192个训练样本和136个测试样本）。

输入模态: 图像（8视角）+ LiDAR（5传感器）+ 自车状态。

批量大小: 256（分布于4个NVIDIA H20 GPU）。

扩散步数: 10步（训练和推理）。

输出轨迹: 8个waypoints，覆盖4秒时间范围。

性能指标: PDMS（Predictive Driver Model Score）达到94.85，优于现有方法（如Hydra-MDP++和GoalFlow）。

关键创新点:

无锚点轨迹生成:无需依赖锚点轨迹（anchor trajectories）或预定义词汇表（vocabulary），直接从多模态感知信息中生成轨迹。

多模态去相关优化(Muti-model representation decorrelation optimization mechanism):通过减少表征空间中的冗余相关性，目的是为了解决扩散模型生成轨迹时的模式奔溃(mod collapse)问题，提升生成轨迹的多样性。此外和对比学习等方法相比，该机制对批次大小不敏感，计算开销低。

备注: 模式奔溃指的是不同的随机噪声输入（random noise inputs）在去噪过程中收敛到相似的轨迹（converge to similar trajectories），生成的轨迹缺乏多样性。

论文作者认为的局限性与未来方向

局限性: 模型微调(Fine-tuning)的困难(包括perception ecoder)。

未来方向: 结合强化学习，以及参考OpenVLA这样的VLA模型。

备注: 微调(Fine-tuning)是训练大模型的关键步骤之一，训练大模型经过数据准备/预训练(Pre-training)/微调(Fine-tuning)/强化学习(RL)或人类反馈强化学习(RLHF)。

数据准备类比准备学习资料，预训练类比学习基础课程，微调类比适配特殊或具体任务，进行专业培训，强化学习类比通过导师反馈优化实战能力。

Perception Encoder在论文中指的是用于处理来自车辆传感器（如摄像头、LiDAR）的感知信息的编码器部分。目的是将复杂的环境感知数据转换为机器学习模型能够理解和利用的形式，以便后续步骤可以根据这些信息生成合理的驾驶轨迹。

加微信，进群深度交流理想长期基本面。不是车友群，也不是垂直的智驾交流群。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签