银河通用联合智源研究院等发布GraspVLA,首个全面泛化的端到端具身抓取基础大模型。该模型通过十亿帧“视觉-语言-动作”对的合成数据进行预训练,具备强大的泛化抓取能力,无需大量真实数据即可在各种场景中进行零样本测试。针对特殊需求,只需少量样本学习即可迁移基础能力。GraspVLA的发布,标志着具身智能领域迈出了重要一步,为机器人等物理实体赋予了更强的感知、学习和交互能力。
🤖 GraspVLA通过十亿帧“视觉-语言-动作”对的合成数据预训练,实现了强大的泛化闭环抓取能力,成为首个全面泛化的端到端具身抓取基础大模型。
✨ GraspVLA预训练后可直接进行Sim2Real零样本测试,在未知的真实场景和物体上展现出良好的适应性,满足了大多数产品的需求,无需大量的真实数据训练。
🎯 GraspVLA 后训练仅需少量样本学习,即可将基础能力迁移到特定场景,在维持高泛化性的同时,形成符合产品需求的专业技能,兼顾了通用性和专业性。
✅ GraspVLA需满足七大泛化“金标准”,包括光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化以及物体类别泛化,确保了模型在复杂环境下的稳定性和可靠性。
IT之家 1 月 10 日消息,银河通用昨日(1 月 9 日)宣布,联合北京智源人工智能研究院(BAAI)及北京大学和香港大学研究人员,发布首个全面泛化的端到端具身抓取基础大模型 GraspVLA。
IT之家注:“具身智能”是指将人工智能融入机器人等物理实体,赋予它们感知、学习和与环境动态交互的能力。

据介绍,GraspVLA 的训练包含预训练和后训练两部分。其中预训练完全基于合成大数据,训练数据达到了有史以来最大的数据体量 —— 十亿帧「视觉-语言-动作」对,掌握泛化闭环抓取能力、达成基础模型。

预训练后,模型可直接 Sim2Real(IT之家注:从模拟到现实)在未见过的、千变万化的真实场景和物体上零样本测试,官方宣称满足大多数产品的需求;而针对特别需求,后训练仅需小样本学习即可迁移基础能力到特定场景,维持高泛化性的同时形成符合产品需求的专业技能。
官方公布了 VLA 达到基础模型需满足的七大泛化“金标准”:光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化、物体类别泛化。

▲ 光照泛化,二倍速播放
▲ 背景泛化,三倍速播放
▲ 平面位置泛化,二倍速播放
▲ 空间高度泛化,二倍速播放
▲ 动作策略泛化,三倍速播放
▲ 动态干扰泛化,二倍速播放 
▲ 物体类别泛化,三倍速播放