Key Points
● Pi创始人Sergey Levine的学生罗剑岚也加入智元,领导具身智能研究中心;
● 语言模型只有70%的准确率,而机器人模型需要99%;
● 机器人模型的技术核心是基于世界模型的「感知预测+行为生成」,做成了就是AGI;
● 智元技术路线上选择软硬件联合迭代,大疆就是这么成功的;
● 回应机器人泡沫:机器人已经进入应用窗口期。
4月2日,智元机器人宣布与硅谷明星机器人公司Physical Intelligence(Pi或π)达成合作,共同开发能处理「动态环境下的长周期复杂任务」的机器人模型。
Pi创立于2024年3月,目标是「为机器人构建大脑」,OpenAI、红杉资本等机构曾领投其首轮融资。今年2月,Pi发布名为「Hi Robot」的分层端到端系统。其中需要快速反应的熟练任务,也就是「系统1」,由动作执行模型π0负责,采用了VLA(视觉-语言-行动)架构,目前π0已开源;需要拆解成多步操作的复杂任务,也就是「系统2」,上层动作规划模型负责,采用VLM(语义视觉-语言模型)架构。智元3月发布的GO-1模型与Pi的上述「Hi Robot」模型相似。
宣布与Pi合作的同时,智元官宣成立「具身智能研究中心」,主要负责前沿算法研发与工程化落地,由2个月前加入公司的罗剑岚领导。
罗剑岚2015年进入加州大学伯克利分校攻读机器人控制博士,探索方向是Robotics+AI。博士毕业后,罗剑岚加入Google,在DeepMind、Google X等部门推动强化学习的工业应用,曾参与孵化机器人公司Intrinsic。2022年,他重返伯克利,在电气工程与计算机科学系副教授Sergey Levine团队担任博士后,领导开发机器人真机强化学习系统SERL/HIL-SRL。Sergey Levine是Pi的联合创始人之一,曾带领团队与Google联合开发RT系列机器人。
今年年初,罗剑岚加入智元机器人,担任首席科学家。除了领导刚成立的智元「具身智能研究中心」,罗剑岚还将负责推进智元与Pi接下来的深度合作。
在合作公布前,罗剑岚与智元机器人合伙人、具身产品线总裁、研究院执行院长姚卯青共同接受了包括「新皮层」在内的媒体采访。他们共同谈到以下要点:
语言模型只有70%的准确率,机器人模型需要99%
罗剑岚认为,外界有些「过度类比大模型和具身智能」,两个领域有相似之处,大模型的所有技术也都可以迁移到机器人上,但两者并不能划等号。原因是大语言模型(LLM)或多模态(文生图、文生视频等)模型的生成结果仍然只有60%至70%的准确率。这个准确率在二维世界并不会造成多大伤害,但在真实世界,「这种准确率一点用也没有」。
在真实世界,机器人的每一个失败动作都会产生一个物理性的后果。没有人可以忍受自己的家庭机器人每3个小时把家里茶几上的杯子往地上摔一次或者把主人的手机往窗外丢上一次,再或者一个在咖啡店服务的机器人每20分钟把咖啡往顾客脸上泼一次。为此,机器人需要更高准确率——罗剑岚给出的数字是99%。
要在70%的动作预测准确率基础上再提升20%到30%,往往比从0到70%更难。因此,「还有很多从0到1的工作要做。」罗剑岚对「新皮层」说。
技术核心是基于世界模型的「感知预测+行为生成」,做成了就是AGI
如今很多大家在网络上看到的机器人都是被操控的,难以自主决策。罗剑岚认为,要让机器人具有自主决策能力,首先要让机器人能够理解世界。
罗剑岚称,智元计划开发一个机器人的世界模型(World Model),它能够预测所在环境即将发生的下一步事件是什么,相应的,机器人就能理解人类生活的周遭环境并规划动作。即,智元希望机器人不是先感知外部世界,再根据感知到的信号决定要如何行动,而是反过来,根据内部世界模型预测自己可能「即将」感知到什么信号,就开始计划如何行动。
罗剑岚表示,这套基于世界模型的「感知预测+行为生成」机制,是让机器人能力更泛化的基础,也是智元整个机器人框架中「最核心、最关键的技术」,做成了就是AGI。「如果人类文明从0到10排序的话,LLM最多算3,但如果把机器人的操作智能实现了,就能把人类文明推向7或8。」他说。
世界模型的本质是对不确定性进行建模和分析,比如如果一个事物的位置发生了改变,或者颜色变了,与内部模型记忆中它曾经的位置或颜色不同,世界模型就能让机器人「意识」到这一点,并作出反应。这需要模型具有长期记忆能力,但目前所有的LLM包括GPT都还没有记忆能力。因此,要建构一个世界模型,解决模型的记忆能力也仍然是个挑战。
在世界模型构建出来之前,罗剑岚认为,想要让机器人动作规划模型的准确性提升20%至30%,那么最有潜力的路径是强化学习。这种学习模式可以让模型展现出更强的推理能力,OpenAI的o1模型和DeepSeek的R1模型已经表明了这一点。
选择Pi合作部分原因是因为美国研究环境更能容纳从0到1的创新
智元与Pi的合作目标是解决「动态环境下的长周期复杂任务」。智元没有明确说明实现这个目标是靠一个模型完成还是多个模型。
姚卯青对「新皮层」称,这次的合作是一个长期合作的起点。而之所以选择跟Pi合作,罗剑岚给出了3个原因,其一,他认为Pi是全球在具身智能领域做得最好的公司之一,其创始团队正是2016年开辟Robotic Learning(机器人学习)的那批人;其二,智元和Pi两个团队在技术理念和路线上很相似,两家公司都强调软件和硬件的联合迭代;其三,根据自己在美国科研机构的多年经历,罗剑岚认为美国同类机构的机制设计更鼓励长线科研、更鼓励从0到1。
罗剑岚认为,目前中国公司和环境对从0到1的鼓励还相对欠缺,但中国公司擅长资源整合和工程化落地以及大规模scaling,一旦一个概念被证明有效,中国公司就能将之落地。因为中国有更全的硬件产业链、场景,也有更扁平的团队,迭代速度更快。
智元的技术路线:软硬件联合迭代,大疆就是这么成功的
和业内有的公司只做硬件、有的公司只做机器人大脑不同,智元践行从软件到硬件,从小脑到大脑的全栈研发和投入。并且,罗剑岚称,智元会在每个技术路线上都进行探索。按照姚卯青的说法,智元的模型战略不仅仅是开发「下一代模型」的单一概念,而是会做「全面布局」,其中既包括机器人小脑模型,也包括大脑模型——如果将偏短程的固定动作执行看作小脑模型的能力,那大脑模型就需要能够进行长程的动作规划。同时,智元还会尝试大小脑联动的设计,以及未来的世界模型。
之所以选择软硬件联合迭代,罗剑岚认为原因是当下阶段,机器人无论硬件技术还是软件技术,都还没有收敛到一个稳定的成熟点,因此软件与硬件如何集成,行业里也还没达成共识。而且,他认为具身智能是系统工程,不是靠自己解决单一问题,其他人解决其他事情,最后连接起来就能实现创新。相反,很多新生智能硬件的演进过程中,最后胜出的都只有坚持软硬件联合迭代的公司。
他给出的例子是无人机。10年前,无人机产业刚刚成为风口,美国和中国都有大批无人机公司,但美国无人机公司几乎都声称自己不做硬件,只做无人机的大脑。当时,美国至少有20多个实验室在做无人机导航,后来,这些公司和实验室几乎都倒闭了。无人机领域唯一被记住的名字是大疆。
姚卯青告诉「新皮层」,在人形机器人领域,目前还没有出现OpenAI那样的能够定义大模型技术方向和迭代节奏的角色,还没有任何一家人形机器人公司「遥遥领先」,具有很强的话语权。智元希望扮演这种角色。
智元具身智能研究中心的任务在基础科研和产品落地之间
智元已在今年早些时候调整了组织架构,设立了远征、灵犀和Genie三大产品线,3个团队的主要成员分别在上海、深圳和北京。此外,智元还为灵巧手等零部件设立了几个一级部门。
智元具身智能研究中心的成立进一步强化了智元在机器人基础研究方面的人才密度。不过,罗剑岚称,他领导的这个研究中心不是一个单纯的科研机构,目标不是为了发论文,也不是单纯为了把科研工作工程化地落地,而是为了在两者之间进行工作,从而更好地兼顾技术前沿探索和进行技术验证,从中寻找机器人落地的成熟方案。
回应机器人泡沫:机器人已经进入应用窗口期
对于3月底朱啸虎等投资人提出的「人形机器人没有商业价值」问题,以及不少人将机器人领域与大模型领域的泡沫类比,罗剑岚认为两个领域有相似之处,大模型的很多技术都可以借用到机器人模型上,但「过度类比」其实低估了机器人在真实空间中进行「作业智能」的独特价值和挑战。
就商业化进程来说,罗剑岚认为与机器人发展节奏更像的是自动驾驶,两者都从2015年左右开始探索,经过10年发展,自动驾驶开始看到落地曙光,机器人同样如此——Pi创始团队所开创的Robotic Learning领域也是从2025年左右开始的,这10年间,机器人的稳定性问题得到了很好的解决,现在正在解决的问题是让机器人从有用到全能。实际上,现在的机器人已经进入有用阶段。罗剑岚给出的数字称,全球现在已经有500万台机器人在工厂里工作,它们在没有摄像头、没有任何反馈的环境中进行着高度重复性的工作。言下之意,刚刚开始量产的新一代人形机器人起码可以替代上一代像瞎子一样的工业机器人进工厂打工。