IT之家 07月22日 12:34
字节跳动发布通用机器人模型 GR-3:能理解包含抽象概念的语言指令,支持高泛化、长程任务、柔性物体双臂操作
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动Seed团队推出了全新的Vision-Language-Action(VLA)模型GR-3,该模型在泛化能力、理解抽象指令以及精细操作柔性物体方面表现出色。与以往依赖大量机器人轨迹训练的模型不同,GR-3通过少量人类数据即可高效微调,实现低成本迁移至新任务和识别新物体。其改进的模型结构使其能处理长程任务和高灵巧度操作,如双手协同、柔性物体操作及全身协调。GR-3的训练结合了真机数据、VR设备采集的人类轨迹数据以及公开的视觉语言数据,这种多样化的数据融合是其核心亮点。同时,字节跳动还为其配备了专用的高灵活性通用双臂移动机器人ByteMini,共同应对真实环境中的复杂任务。

🚀 **强大的泛化与学习能力:** GR-3模型能够泛化到未曾见过的物体和环境,并且能理解包含抽象概念的复杂语言指令。通过利用VR设备采集少量(约10条)人类操作数据,即可显著提升其对新物体的操作成功率,从不到60%提升至80%以上,展现了高效的低成本迁移能力。

🧠 **精细操作与任务执行:** GR-3在处理长程任务(如超过10个子任务的餐桌整理)和高灵巧度操作方面表现卓越。它能实现双手协同操作、精准处理可形变的柔性物体(如衣物),并能鲁棒地识别和整理不同摆放方式的衣物,甚至能根据分步指令精确执行任务,例如将所有指定物品放入垃圾桶,或在指令无效时保持不动。

🔄 **多样化数据驱动的训练:** GR-3的训练方法是其区别于现有VLA模型的关键。它融合了遥操作机器人收集的高质量真机数据、用户授权的VR设备人类轨迹数据,以及公开可用的视觉语言数据。这种多样性数据的联合训练,使其在基础场景和新环境中加入公开图文数据训练时不会出现能力损失,并在处理未见过的复杂指令和新物品时带来显著的成功率提升。

🤖 **软硬结合的智能机器人:** 字节跳动Seed团队为GR-3模型开发了名为ByteMini的通用双臂移动机器人。ByteMini拥有22个全身自由度和独特的手腕球角设计,使其能像人类一样灵活地在狭小空间内进行精细操作。与GR-3“大脑”的结合,使得ByteMini能够高效地在真实环境中处理各种复杂任务,为通用机器人“大脑”的实现奠定了坚实基础。

📈 **领先的性能表现:** GR-3在各类任务中展现出的性能超过了业界此前可测试具体性能的VLA头部模型π0。其在复杂灵巧的挂衣服任务中,即使面对机器人数据中未包含的短袖衣物,也能有效处理。在遵循语言指令方面,GR-3相较于基准模型表现更佳,能够准确理解并执行指令,或在指令不适用时做出正确反应。

IT之家 7 月 22 日消息,Seed GR-3 是字节跳动 Seed 团队提出的全新 Vision-Language-Action Model(VLA)模型,它具备泛化到新物体和新环境的能力,能理解包含抽象概念的语言指令,还能够精细地操作柔性物体。

据 Seed 介绍,与此前需要大量机器人轨迹训练的 VLA 模型不同,GR-3 通过少量的人类数据即可实现高效微调,从而快速且低成本地迁移至新任务,以及认识新物体。

此外,得益于改进的模型结构,GR-3 能有效处理长程任务并能进行高灵巧度的操作,包括双手协同操作、柔性物体操作,以及融合底盘移动的全身操作等。

具体而言,这些能力是通过一种多样的模型训练方法实现的:除遥操作机器人收集的高质量真机数据外,团队还经过用户授权,征集了基于 VR 设备的人类轨迹数据,以及公开、可用的大规模视觉语言数据进行联合训练 —— 多样性数据的融合是 GR-3 区别于现有 VLA 模型的亮点之一。

同时,字节跳动 Seed 团队还开发了一款具备高灵活性、高可靠性的通用双臂移动机器人 ByteMini,相当于是专为 GR-3 这颗“大脑”打造的“灵活躯体”。

ByteMini 具备 22 个全身自由度以及独特的手腕球角设计,使它能够像人类一样灵活,在狭小空间中完成各种精细操作,携带 GR-3 模型这颗“机器人大脑”,可高效在真实环境中处理复杂任务。

GR-3 在各类任务中展现的特点包括:

经过团队上千次系统性实验测试,GR-3 表现超过业界此前可测试具体性能的 VLA 头部模型 π0。未来,团队希望 GR-3 可以成为迈向通用机器人“大脑”的重要一步。

在基础场景和新环境中,加入公开可用的图文数据进行训练不会带来能力损失;在未见过的复杂指令和新物品任务中,这部分数据分别能带来 42.8% 和 33.4% 的成功率提升。

为持续提升 GR-3 应对未见过物体的能力,团队利用 VR 设备采集了人类操作物体的数据,结果发现:只需要通过 VR 设备对相应物品采集 10 条轨迹数据,就可以让 GR-3 操作这些物体的成功率从不到 60% 提升到超过 80%。

团队还同时测试了 GR-3 跟随分步指令的能力,结果发现:GR-3 在跟随语言指令上,领先基准模型,面对多件同类物品(如多个杯子),GR-3 能按指令将他们“全放进垃圾桶”,若指令无效(如餐桌上没有蓝色的碗,指令为“把蓝色碗放进篮子”),GR-3 能准确判断并保持不动,而基准模型则会随机拿取物品。

此外,GR-3 还能泛化到机器人数据中未包含的衣服。例如,当机器人数据中的衣服均为长袖款式时,GR-3 对短袖衣物同样能有效处理。

IT之家附官方地址:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Seed GR-3 VLA模型 字节跳动 机器人 人工智能
相关文章