智元机器人发布了首个通用具身基座模型——智元启元大模型(Genie Operator-1),该模型采用创新的ViLLA架构,通过VLM和MoE的结合,实现了利用人类视频学习,完成小样本快速泛化,显著降低了具身智能的门槛。在多项任务测试中,GO-1的成功率相较于现有最优模型大幅领先,平均成功率提高了32%。该大模型借助人类和多种机器人数据,获得了革命性的学习能力,能够泛化应用到各类环境和物品中,快速适应新任务和学习新技能,并支持部署到不同的机器人本体,实现高效落地和持续进化。
🤖 **ViLLA架构创新:** 智元启元大模型(Genie Operator-1)开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,由VLM(多模态大模型)+MoE(混合专家)组成,为具身智能的发展提供了新的思路。
🚀 **成功率显著提升:** 通过ViLLA架构,智元机器人在五种不同复杂度任务上测试GO-1,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%->78%),尤其在“倒水”、“清理桌面”和“补充饮料”等任务中表现突出。
📚 **人类视频学习能力:** GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务,这使得机器人能够更有效地模仿和学习人类的动作和行为。
💡 **小样本快速泛化:** GO-1大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。即使在数据量有限的情况下,也能快速适应新的环境和任务。
快科技3月10日消息,今日,“稚晖君”创业项目智元机器人发布了首个通用具身基座模型——智元启元大模型(Genie Operator-1)。
该大模型开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,该架构由VLM(多模态大模型)+MoE(混合专家)组成,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体。通过ViLLA架构,智元机器人在五种不同复杂度任务上测试GO-1,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%->78%)。其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务表现尤为突出。此外还单独验证了ViLLA架构中Latent Planner的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。
据介绍,GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。这一系列的特点可以归纳为4个方面:人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。小样本快速泛化:GO-1大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。一脑多形:GO-1大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。持续进化:GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。据悉,2020年,彭志辉(稚晖君)以“华为天才少年计划”最高档年薪201万元,加入华为团队,从事昇腾AI芯片和AI算法相关研究工作,2022年年底从华为离职,2023年2月联合创立智元机器人。
【本文结束】如需转载请务必注明出处:快科技责任编辑:拾柒文章内容举报]article_adlist-->