IT之家 03月10日
“稚晖君”智元机器人发布首个通用具身基座大模型 GO-1
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智元机器人发布了首个通用具身基座模型——智元启元大模型(Genie Operator-1),简称GO-1。该模型创新性地采用ViLLA架构,由多模态大模型(VLM)与混合专家(MoE)构成。GO-1模型能够通过学习人类视频,实现小样本快速泛化,从而降低具身智能的应用门槛。智元还推出了AgiBot World,一个包含超过百万条轨迹的大规模真机数据集,为GO-1的训练提供了有力支持。实验结果表明,GO-1在多种复杂任务上的成功率显著优于现有模型,尤其在倒水、清理桌面和补充饮料等任务中表现突出。GO-1大模型还支持部署到不同的机器人本体,并在实际的使用中持续不断地快速进化。

🤖 **ViLLA架构创新**:智元启元大模型(GO-1)的核心在于其Vision-Language-Latent-Action(ViLLA)架构,该架构由VLM(多模态大模型)+ MoE(混合专家)组成,使得机器人能够更好地理解场景和执行动作。

🧠 **AgiBot World数据集**:智元构建了AgiBot World,一个包含超过100万条轨迹、涵盖217个任务的大规模高质量真机数据集。该数据集为GO-1的训练提供了丰富的数据支持,是模型性能提升的关键。

🚀 **任务成功率显著提升**:通过ViLLA架构,智元机器人在五种不同复杂度任务上测试GO-1,相比已有的最优模型,GO-1 成功率大幅领先,平均成功率提高了 32%(46%->78%),尤其在倒水、清理桌面和补充饮料等任务中表现突出。

🔄 **持续进化能力**:GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明,从而保证模型在实际应用中不断优化和提升。

IT之家 3 月 10 日消息,“稚晖君”创业项目智元机器人今日发布了首个通用具身基座模型 —— 智元启元大模型(Genie Operator-1),它开创性地提出了 Vision-Language-Latent-Action(ViLLA)架构,该架构由 VLM(多模态大模型)+ MoE(混合专家)组成,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体

2024 年底,智元推出了 AgiBot World,包含超过 100 万条轨迹、涵盖 217 个任务、涉及五大场景的大规模高质量真机数据集。基于 AgiBot World,智元今天正式发布智元通用具身基座大模型 Genie Operator-1(GO-1)

它开创性地提出了 Vision-Language-Latent-Action(ViLLA)架构,该架构由 VLM(多模态大模型)+ MoE(混合专家)组成:

通过 ViLLA 架构,智元机器人在五种不同复杂度任务上测试 GO-1,相比已有的最优模型,GO-1 成功率大幅领先,平均成功率提高了 32%(46%->78%)。其中“Pour Water”(倒水)、“Table Bussing”(清理桌面)和“Restock Beverage”(补充饮料)任务表现尤为突出。

此外智元机器人还单独验证了 ViLLA 架构中 Latent Planner 的作用,可以看到增加 Latent Planner 可以提升 12% 的成功率(66%->78%)

GO-1 大模型借助人类和多种机器人数据,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体完成落地,并在实际的使用中持续不断地快速进化。

这一系列的特点可以归纳为 4 个方面:

智元机器人还预告了下一代具身智能机器人产品,不过没有透露推出时间。

IT之家附论文链接:

https://agibot-world.com/blog/agibot_go1.pdf

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

智元机器人 具身智能 通用基座模型 ViLLA架构 AgiBot World
相关文章