机器之心 07月10日 17:03
VLA统一架构新突破:自回归世界模型引领具身智能
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

北京智源研究院联合中国科学院自动化研究所提出UniVLA,这是一种全新的视觉-语言-动作(VLA)模型架构,基于全离散、自回归机制,实现了对视觉、语言和动作信号的原生统一建模。通过引入世界模型,UniVLA从大规模视频中学习时序信息与因果逻辑,显著提升了模型在下游决策任务中的性能。该模型在CALVIN、LIBERO、SimplerEnv等主流具身智能基准上刷新了多项SOTA纪录,并在真机操控和自动驾驶等现实场景中展现出广泛的应用潜力,为具身智能领域带来了新的技术突破。

👁️ **UniVLA的核心架构**:该模型采用全离散、自回归机制,将视觉、语言和动作信号转化为离散token,构建视觉-动作交错的多模态时序序列,实现了原生统一建模。这种设计使得模型能够高效地处理多种模态信息,并具备良好的通用性与数据扩展能力。

🧠 **世界模型的关键作用**:UniVLA在训练后引入世界模型,从大规模视频中学习时序信息与因果逻辑。这显著提升了模型在下游决策任务中的性能,而且无需依赖大量的动作数据,仅凭海量视频即可高效学习。这为机器人从大规模视频中学习真实世界知识提供了新路径。

🏆 **SOTA纪录的突破**:UniVLA在CALVIN、LIBERO和SimplerEnv等主流具身智能基准上全面刷新多项SOTA纪录,展现出强大的性能优势。例如,在CALVIN的长程任务评测、LIBERO的泛化评测以及SimplerEnv的泛化测试中,UniVLA均表现出色。

💡 **技术路线的创新**:UniVLA相比于基于视觉语言模型(VLM)拓展而来的VLA框架,提出了一条全新的技术路线。它构建了一个视频版本的VLA架构,使模型能够有效捕捉视频中的时空动态特征,并在推理过程中更充分地利用历史信息。同时,全离散的自回归训练范式也显著提升了训练效率,并为大规模数据下的模型扩展性提供了坚实基础。

2025-07-10 12:27 北京

全新的 VLA 模型架构,在主流具身智能基准上全面刷新多项 SOTA 纪录。

本文来自:王宇琪,中国科学院自动化所博士,研究方向为世界模型,自动驾驶感知与决策等,在 CVPR、NeurIPS、ICCV、ECCV、ICLR 等顶级会议上发表过多篇论文。

王鑫龙团队,北京智源研究院,研究方向为原生多模态大模型,Emu 系列工作核心负责人。

张兆翔团队,中国科学院自动化研究所,研究方向涵盖世界模型、视觉生成与重建、自动驾驶、具身智能等。


从 Sora 到 Genie2,从语言驱动的视频生成到世界的交互模拟,世界模型正加速成为连接感知、理解与决策的关键基座。随着视觉 - 语言 - 动作(VLA)模型在具身智能领域的快速发展,多模态之间的边界正被重塑。


然而,现有方法多以语言模态为中心,往往忽视了视觉信息蕴含的丰富时序动态与因果结构。


为此,北京智源研究院联合中国科学院自动化研究所提出 UniVLA —— 一种全新的 VLA 模型架构,基于全离散、自回归机制,原生建模视觉、语言与动作信号,并在后训练阶段引入世界模型建模,从大规模视频中学习时序信息与因果逻辑,有效增强了模型在下游决策任务的性能和学习效率。


UniVLA 在 CALVIN、LIBERO、SimplerEnv 等主流具身智能基准上全面刷新多项 SOTA 纪录,并展现出在真机操控和自动驾驶等现实场景中的广泛潜力。


统一视觉 - 语言 - 动作的

全离散自回归模型

该框架将视觉、语言与动作信号统一转化为离散 token,并构建视觉 - 动作交错的多模态时序序列,实现原生统一建模。在训练范式上,采用自回归方式进行学习,不仅高效稳定,更具大规模扩展的潜力。

得益于这种时序化的多模态表示,模型天然支持多种任务的统一训练,包括视觉理解、文生视频、动作预测等,具备良好的通用性与数据扩展能力。


统一的视觉 语言 动作模型架构

世界模型助力下游决策

在这套统一框架下,世界模型的后训练显著提升了下游决策性能,且无需依赖大量动作数据,仅凭海量视频即可高效学习。

对比语言生成图像的训练范式,时序动态信息被证明至关重要;而与纯视频建模相比,多模态语义对齐同样不可或缺。这为机器人从大规模视频中学习真实世界知识打开了新路径,展现出世界模型在多模态感知与决策融合中的巨大潜力。


刷新多项仿真基准纪录

该方法在当前主流的具身仿真基准上 —— 包括 CALVIN、LIBERO 和 SimplerEnv—— 均展现出强劲的性能优势,全面刷新多项任务纪录。


CALVIN 的长程任务评测


LIBERO 的泛化评测


SimplerEnv 的泛化测试

解锁更广应用:

真机双臂操控与端到端驾驶


双臂协作倒水

探索新的VLA技术路径


未来展望


相比于基于视觉语言模型(VLM)拓展而来的 VLA 框架,本文提出了一条全新的技术路线,展现出更大的潜力与探索空间。

一方面,我们构建了一个视频版本的 VLA 架构,使模型能够有效捕捉视频中的时空动态特征,并在推理过程中更充分地利用历史信息;同时,即便缺乏动作标签,模型仅通过大规模视频数据的训练,依然在下游任务中表现出显著优势。

另一方面,我们引入全离散的自回归训练范式,显著提升了训练效率,并为大规模数据下的模型扩展性提供了坚实基础。未来,我们将进一步探索该框架与多模态强化学习的深度融合,推动其在开放世界中的感知、理解与决策能力持续演进。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

UniVLA 具身智能 VLA模型 世界模型 多模态
相关文章