本文第一作者为香港科技大学(广州)机器人系一年级博士生宋文轩,主要研究方向为VLA模型,共同第一作者是来自香港科技大学广州的研究助理陈家毅,项目leader为浙江大学和西湖大学联合培养博士生丁鹏翔,他们也是具身智能领域开源项目OpenHelix以及LLaVA-VLA的研究团队。通讯作者为香港科技大学广州的李昊昂教授,他是今年的CVPR2025 Best Paper Candidate的获得者。
近年来,视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型因其出色的多模态理解与泛化能力,已成为机器人领域的重要研究方向。尽管相关技术取得了显著进展,但在实际部署中,尤其是在高频率和精细操作等任务中,VLA 模型仍受到推理速度瓶颈的严重制约。
针对这一问题,部分研究提出采用 Jacobi 解码替代传统的自回归解码,以期提升推理效率。然而,由于 Jacobi 解码往往需要较多迭代次数,其加速效果在实践中较为有限。
为此,我们提出了一种一致性蒸馏训练(consistency distillation training)策略,使模型在每次迭代中能够同时预测多个正确的动作 token,从而实现解码加速。同时,我们设计了混合标签监督机制(mixed-label supervision),用于缓解蒸馏过程中可能产生的误差积累问题。
尽管上述方法带来了可接受的加速效果,我们进一步观察到:Jacobi 解码中仍存在若干低效迭代步骤,成为限制整体效率的关键瓶颈。为彻底解决该问题,本文提出一种提前退出(early-exit)解码策略,通过适度放宽收敛条件,进一步提升平均推理效率。
- 论文题目:CEED-VLA : Consistency Vision-Language-Action Model with Early-Exit Decoding项目主页:https://irpn-eai.github.io/CEED-VLA/论文链接: https://arxiv.org/pdf/2506.13725代码链接: https://github.com/OpenHelix-Team/CEED-VLA
实验结果表明,我们所提出的方法在多个基线模型上实现了超过4 倍的推理加速,同时在仿真与真实机器人任务中均保持了较高的任务成功率。这些实验验证了本方法在加速机器人多模态决策过程中的高效性与通用性,展现出良好的应用前景。总的来说,我们做出以下三大贡献:
(1)我们提出了一种通用的加速方法 CEED-VLA,在保持操控性能的前提下显著提升了推理速度。
(2)我们引入了一种一致性蒸馏机制,并在自回归损失中结合混合标签监督,以有效保留高质量的动作序列。
(3)我们发现 Jacobi 解码存在低效迭代的瓶颈问题,进一步提出了早期退出(early-exit)解码策略,实现了 4.1 倍的推理加速与 超过 4.3 倍的解码频率提升。
Method
我们提出的框架首先通过预训练的 VLA 模型(例如 LLaVA-VLA和OpenVLA)进行Jacobi Decoding生成训练Jacobi Trajectory数据集。随后,我们设计了一种高效的一致性蒸馏方式,并引入了一种新颖的混合标签监督方法,在同时保证精度和提高速度的前提下训练学生模型。最后,我们提出了Early-exit Decoding技术,以进一步提升推理速度。模拟环境与现实世界中的实验表明,在几乎不损失任务成功率的前提下,该方法显著提升了模型的推理速度和灵巧任务的成功率。
Consistency Training
对于目标 VLA 模型 ,为了捕捉 Jacobi 轨迹中的内在一致性以进行一致性训练,我们首先通过在机器人数据集C上使用 Jacobi Decoding对模型 进行动作预测,来采集完整的Jacobi轨迹。
一致性训练包含两个优化目标:一致性损失(Consistency Loss): 引导模型能够在单次forward过程中预测多个正确的 token,为了确保模型在轨迹中的任意一步都能生成与最终目标一致的动作,这里引入了 KL 散度作为一致性损失。简而言之,它要求模型在每一个中间步骤的预测,和最终预测结果之间保持一致,从而提高模型收敛效率。
混合标签的自回归监督损失(Mixed-label AR Supervision): 为了保留模型常规的自回归生成能力,CEED-VLA混合使用教师模型的数据以及Ground-truth数据进行监督,以保证动作精确性。最终的训练目标是两种损失的加权和。训练过程如下所示:
Early-exit Decoding
Jacobi 解码允许并行输出动作token,在一定程度上提高了推理速度,但严格的收敛条件影响解码效率进一步提升。为此我们提出Early-exit Decoding策略:模型通过提前退出的方式输出中间预测结果,无需满足Jacobi iteration的收敛条件。得益于manipulation任务独特的结构,Early-exit Decoding显著提升了推理速度,同时保持了成功率,使得模型能够以更高频率控制机器人,满足实时任务需求。
仿真环境基准实验(Simulation Benchmark)
在最具挑战的长程任务CALVIN ABC-D和LIBERO-Long基准上的实验结果表明,CEED-VLA在几乎不损失任务成功率的前提下实现了4倍以上的推理速度和执行频率。
真实世界实验(Real World)
上图展示了 LLaVA-VLA 模型的真实表现。机械臂操作频率较低,难以完成如叠毛巾等灵巧操作任务,经常出现抓取失败或只抓到一边的情况,导致任务失败。下图展示了 CEED-VLA 模型的实验效果。得益于推理频率的提高,机械臂动作更加顺畅,成功完成了灵巧操作任务。
CEED-VLA 显著提升了推理速度和控制频率,使模型能够学习并执行高频动作,因此相比基线在灵巧任务上的成功率大幅提升,超过 70%。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com
文章原文