华为离职天才少年创业项目智元机器人发布首个通用具身基座大模型

今日，“稚晖君”创业项目智元机器人发布了首个通用具身基座模型——智元启元大模型（Genie Operator-1）。该大模型开创性地提出了Vision-Language-Latent-Action（ViLLA）架构，该架构由VLM（多模态大模型）+MoE（混合专家）组成，实现了可以利用人类视频学习，完成小样本快速泛化，降低了具身智能门槛，并成功部署到智元多款机器人本体。

通过ViLLA架构，智元机器人在五种不同复杂度任务上测试GO-1，相比已有的最优模型，GO-1成功率大幅领先，平均成功率提高了32%(46%->78%)。

其中 “Pour Water”（倒水）、“Table Bussing”（清理桌面）和 “Restock Beverage”（补充饮料）任务表现尤为突出。

此外还单独验证了ViLLA架构中Latent Planner的作用，可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。

据介绍，GO-1大模型借助人类和多种机器人数据，让机器人获得了革命性的学习能力，可泛化应用到各类的环境和物品中，快速适应新任务、学习新技能。

同时，它还支持部署到不同的机器人本体，高效地完成落地，并在实际的使用中持续不断地快速进化。

这一系列的特点可以归纳为4个方面：

人类视频学习：GO-1大模型可以结合互联网视频和真实人类示范进行学习，增强模型对人类行为的理解，更好地为人类服务。

小样本快速泛化：GO-1大模型具有强大的泛化能力，能够在极少数据甚至零样本下泛化到新场景、新任务，降低了具身模型的使用门槛，使得后训练成本非常低。

一脑多形：GO-1大模型是通用机器人策略模型，能够在不同机器人形态之间迁移，快速适配到不同本体，群体升智。

持续进化：GO-1大模型搭配智元一整套数据回流系统，可以从实际执行遇到的问题数据中持续进化学习，越用越聪明。

据悉，2020年，彭志辉（稚晖君）以“华为天才少年计划”最高档年薪201万元，加入华为团队，从事昇腾AI芯片和AI算法相关研究工作，2022年年底从华为离职，2023年2月联合创立智元机器人。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签