差评 03月11日
稚晖君搞了个“好东西”,网上的视频也能拿来训练机器人了。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智元机器人发布了基座大模型GO-1,旨在解决人形机器人数据匮乏和泛化能力差的难题。GO-1的核心是ViLLA架构,该架构通过VLM多模态大模型和MoE混合专家系统,使机器人能够从互联网上的人类视频数据中学习动作。与传统的VLA架构相比,ViLLA架构引入了隐式规划器和动作专家,能够将复杂任务拆解为关键步骤,并生成更详细的执行方案。这使得机器人不仅能看懂、听懂指令,还能更好地完成复杂任务,并且具备更强的泛化能力和迁移性。GO-1的推出,或将为整个人形机器人行业带来新的发展机遇。

🧠GO-1基座大模型的核心在于ViLLA架构,它由VLM(多模态大模型)和MoE(混合专家)组成,能够利用互联网上的人类视频数据进行学习,降低了对大量标注过的真机数据的依赖。

🤖ViLLA架构引入了隐式规划器(Latent Planner)和动作专家(Action Expert),这两位“专家”能够将复杂的视频动作拆解为关键步骤,并生成更详细的执行方案,从而提高机器人在执行复杂任务时的成功率。

🌐与依赖特定硬件的VLA架构不同,ViLLA架构生成的是“抓取”、“移动”等通用动作标记,这使得它具有更好的任务泛化能力,更容易迁移到其他机器人平台,降低了机器人训练的门槛。

原创 世超 2025-03-11 00:01 浙江

明天会有新机器人吧?



上周五,稚晖君不是在微博浅浅预告了一波 “ 好东西 ” 嘛。


这不刚周一,智元机器人马上就把热乎的抬上来了。


机器人给你端茶倒水、煮咖啡。


把面包放进面包机、给烤好的面包涂抹果酱,再把面包端到你面前,整套动作一气呵成。


还能在公司当前台,充当一把迎宾。


就是吧,见多了各种人形机器人的视频之后,世超对这种程度的展示,已经见怪不怪了。


所以单单这些演示,还不足以能称之为好东西。智元机器人这次发布的基座大模型 GO-1 ( Genie Operator-1 ),才是真正值得拿出来唠一唠的好东西。


这么说吧,这个基座大模型,让困扰了人形机器人许久的数据匮乏、泛化能力差的问题,又有了更高效的解法。


大伙儿可能也知道,现阶段的人形机器人之所以看起来很拉胯,很重要的原因之一,就是缺乏高质量的数据。


而获得这些数据的成本,同样也非常高。


为了解决这个行业难题,去年底,智元机器人就已经开源了百万真机数据集 AgiBot World 。


AgiBot World 的数据都来自于智元的数据采集工厂,里面搭了不少模拟真实场景,数据采集师每天的任务,就是教机器人怎么执行某项任务。


根据官方的说法, AgiBot World 涵盖了超过 100 万条轨迹、 217 个任务和 106 个场景。但即便是这个量级的数据,对于机器人来说仍然是杯水车薪,而且,也没办法解决机器人泛化能力差的问题。


所以,智元机器人才在 AgiBot World 的基础上,又提出了新的 ViLLA ( Vision-Language-Latent-Action )架构。这个架构,就是 GO-1 大模型的核心。


世超去翻了翻智元机器人发布的论文,简单用大白话给大伙儿介绍一下,这 ViLLA 到底牛在哪。


首先在数据上, ViLLA 架构就没那么挑。


根据官方的介绍, ViLLA 架构是由 VLM  ( 多模态大模型 ) 和 MoE  ( 混合专家 ) 组成。


传统的 VLA 架构,结合了 VLM 和端到端的特点,所以这种架构需要大量标注过的真机数据来训练,又费钱又费力,而且数据量还少。


ViLLA 虽说本质上还是 VLA 架构,但它强就强在,互联网上的那些人类视频数据它也能用。。。


也就是说,基于 GO-1 大模型的机器人,理论上只要 “ 看过 ” 视频,就能学会相对应的动作。


至于其中的原因,世超觉着很大概率要归功于 “ 潜在动作 ” ( Latent Actions )。


咱还是拿 VLA 作为对比, VLA ( Vision Language Action )架构,在执行任务的时候是这么个流程:输入图像和语言指令,机器人再根据这些信息,生成并执行指定动作。


看似简单粗暴,但稍微遇到点复杂的任务,机器人就会变成看得懂也听得懂,但是做不好甚至于做不到。


举个例子,咱们让机器人( VLA 架构 )做一杯咖啡,机器人能看到咖啡机在哪,也能听得懂我要它做咖啡。


但是, VLA 架构下的机器人要直接从 “看到了咖啡机 ” “ 听懂了要做咖啡 ” ,一下子想清楚所有步骤,然后马上动手,中间没有思考的过程。


DeepMind 的 VLA 模型 RT-2


问题就在于,泡咖啡其实中间有很多小步骤,比如找到咖啡豆,打开咖啡机,按下开关,就算是人来了,都得想一下要先干嘛再干嘛。


更何况是 “ 一根筋 ” 的 VLA 架构,让它处理中间这些复杂的步骤,多少有点为难它了。


但 ViLLA 架构,引入了两位 “ 专家 ” :隐式规划器( Latent Planner )和动作专家( Action Expert )。


这两位专家不仅能让机器人想得更多,而且能做的事情也变多了。


专有名词看不懂没关系,咱继续举例子。


假设现在输入一段视频,是一个人拿起杯子喝水。


VLM 多模态大模型会先把视频处理了,接着潜在动作模型( Latent Action Model ),会把那些复杂的视频动作,拆解成几个关键步骤,比如 “ 抓取 ” 、 “ 移动 ” 和 “ 喝水 ” 。


但光到这一步还不够,隐式规划器( Latent Planner )要继续把关键步骤进行加工,生成更详细的步骤: “ 抓取(杯子),移动(杯子到嘴边),饮用 ” 。


最后,动作专家( Action Expert )出场,把这些步骤全都转换成机器人能理解的信号,让机器人执行动作。


所以 ViLLA 架构在执行复杂任务时的表现,要比 VLA 更出色,也更能适应当下人形机器人的训练需求。


而且世超还注意到, ViLLA 架构并不依赖具体的硬件。


换句话说, VLA 架构是根据特定的机器人本体、特定场景,来生成动作信号,而 ViLLA 架构生成的是 “ 抓取 ” “ 移动 ” 这种通用动作标记,任务泛化能力更好,也更容易迁移到其他机器人平台。


给大伙儿一句话总结就是,GO-1 让机器人能从互联网的人类视频数据中学习,并且多了拆解任务的能力,提高复杂任务成功率的同时,泛化能力也变强了。


如果 GO-1 的效果真的像官方描述的那样,那么这对于整个人形机器人行业来说,或许都是一个好消息。


数据不愁,还不挑平台,这机器人训练起来可就顺手多了。就是不知道这个 GO-1 ,智元会不会选择继续开源。


听说,智元机器人明天还要放出个惊喜,咱们等一手好吧。


撰文:西西

编辑:江江&面线

美编:萱萱


图片、资料来源

智元机器人(B站、微博)

智元机器人, VLA 进化到 ViLLA ,智元发布首个通用具身基座大模型 GO-1 

AgiBot World Colosseo : Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems 




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

智元机器人 人形机器人 GO-1大模型
相关文章