澎湃新闻 03月10日
中国首个通用具身基座模型发布
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智元机器人正式发布中国首个通用具身基座模型GO-1,采用Vision-Language-Latent-Action(ViLLA)架构,由VLM(多模态大模型) + MoE(混合专家)组成。GO-1借助人类和多种机器人数据,使机器人具备学习能力,可泛化应用于各类环境和物品中,快速适应新任务和学习新技能,并支持部署到不同的机器人本体,在实际使用中持续进化。该模型通过学习互联网数据、人类操作视频和仿真环境,实现了通用的场景感知和理解能力,能够理解任务要求并执行操作。

🤖 **ViLLA架构**: 智元启元大模型GO-1采用Vision-Language-Latent-Action(ViLLA)架构,由VLM(多模态大模型) + MoE(混合专家)组成,为机器人提供强大的学习和泛化能力。

📚 **多模态学习**: GO-1大模型通过学习互联网的大规模纯文本和图文数据,以及人类操作视频和其他机器人的各种操作视频,具备了通用的场景感知和理解能力,能够理解任务要求并执行操作。

🔄 **持续进化**: GO-1大模型搭配一整套数据回流系统,可以从实际执行中遇到的问题数据中持续进化学习,不断提升性能和适应性。

🚀 **任务成功率提升**: 在五种不同复杂度任务的测试中,GO-1的任务成功率相比已有的最优模型领先,平均成功率提高了32%(46%->78%),尤其在“倒水”、“清理桌面”和“补充饮料”等任务中表现突出。

2025-03-10 15:21 上海

澎湃新闻记者 俞凯 喻琰

3月10日,澎湃新闻记者从上海市经信委获悉,当天上午,智元机器人正式发布智元启元大模型GO-1,这是中国首个通用具身基座模型。

智元提出了Vision-Language-Latent-Action(ViLLA)架构,该架构由VLM(多模态大模型) + MoE(混合专家)组成。智元启元大模型GO-1借助人类和多种机器人数据,让机器人获得了学习能力,可泛化应用到各类环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,并在实际的使用中持续进化。

智元机器人服务场景。

举例来说,用户给出指令告诉机器人要做的事情,比如“挂衣服”,模型就可以根据看到的画面,理解这句话对应的任务要求。然后,模型根据之前训练时看过的挂衣服流程,设想这个过程应该包括哪些操作步骤,最后执行这一连串的步骤,完成整个任务的操作。

在更深层的技术层面,GO-1大模型具备了通用的场景感知和理解能力。在构建和训练阶段,该大模型学习了互联网的大规模纯文本和图文数据,因此能够理解“挂衣服”在此情此景下的含义和要求;学习过人类操作视频和其他机器人的各种操作视频,所以能知道挂衣服这件事通常包括哪些环节;学习过仿真的不同衣服、不同衣柜、不同房间,模拟过挂衣服的操作,所以能理解环节中对应的物体和环境,并打通整个任务过程;最后,因为学习过真机的示教数据,所以机器人能完成整个任务的操作。

具体来说,该款大模型的特点可以归纳为4个方面。

一是人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。

二是小样本快速泛化:该大模型具有泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。

三是一脑多形:该大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体。

四是持续进化:该大模型搭配一整套数据回流系统,可以从实际执行中遇到的问题数据中持续进化学习。

智元机器人在五种不同复杂度任务上针对GO-1的测试显示,相比已有的最优模型,GO-1的任务成功率领先,平均成功率提高了32%(46%->78%),其中在“Pour Water”(倒水)、“Table Bussing”(清理桌面)和“Restock Beverage”(补充饮料)的任务中表现尤为突出。



本期编辑 邹姗


推荐阅读


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

智元机器人 GO-1大模型 具身智能 人工智能
相关文章