AI科技评论 02月24日
与 Open AI 分手后,Figure 推出具身模型 Helix,多个机器人一同做家务
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Figure推出首个自研具身模型Helix,能有效实现人形机器人上半身高效控制,包括多方面首创成果及优势。

Helix实现人形机器人上半身高速率连续控制,涵盖多个部位。

Helix支持多机器人协作,能解决共享远程操作任务。

Helix可按自然语言提示拿起几乎任何小型家居物品。

Helix是首创的'系统1、系统2'VLA模型,具多种优势。

原创 吴华秀 2025-02-21 18:43 广东

Figure 首个 VLA 模型,有效实现人形机器人上半身高效控制。

Figure 首个 VLA 模型,有效实现人形机器人上半身高效控制。

作者丨吴华秀

编辑丨陈彩娴

两周前,Figure 宣布停止与 Open AI 的联姻,并丢下一个预告,将会未来 30 天内推出“人形机器人上从未见过的东西”。

勾起不少人好奇心的 Figure,这回终于丢出了一个重磅:将首个自研具身模型 Helix 装入机器人Figure。Figure 创始人兼 CEO Brett Adcock 表示,有了大脑 Helix 的加持,机器人能够拾取任何家庭物品。

视频画面中,一台桌子,一台冰箱,两个机器人合伙一同整理物品,将它们从未见过的物品挨个分门别类放好。动作全程行云流水,无比丝滑。

尤其是两机器人传递物品时抬头的那一对望,让不少网友直呼机器人仿佛有了意识,“原来这就是心电感应”。

这得益于 Helix 对机器人上半身的全控制,其中涵盖手腕、躯干、头部和各个手指,能够对机器人上半身进行高速率的连续控制。

同时,视频中还罕见地展示了多个机器人间的协作与配合。“多机协作是一个亮点,不过这次 Figure 机器人之间的协作任务还比较简单。”一位从业者告诉 AI 科技评论,多机协作的交互和规划会是一个重要课题,但目前优先级还是让单一机器人能真正落地干活,这也是当下机器人厂商普遍的发力点。

在具体任务的执行上,Figure 表示,只要向机器人发话,机器人便能拾取各种各样从未见过的家庭用品。比如拾取生活中的各种物品,玩具、杯子等等。

不过,正和其他机器人厂商一样,目前 Helix 仍还处在比较早期的阶段。


1


实现高速上半身控制,达到多机器人协作

Helix 是一个通用的“视觉-语言-感知”(VLA)模型,将感知、语言理解和学习控制统一起来,取得一系列首创:

在对机器人上半身的控制上,Helix 能以 200Hz 频率协调 35 自由度动作空间,让机器人的上半身从手指、手腕到头部的动作流畅高效。头部与躯干控制存在独特挑战——当头部移动时,将会改变机器人的接触距离和视线范围,以往这种变化会导致机器人不稳定。

视频中,机器人用头部平稳地跟踪双手,同时调整躯干以获得最佳范围,同时保持精确的手指控制以抓握物品。Figure 表示,此前还没有 VLA 能展示这种程度的实施协调,同时保持多任务泛化能力。

Figure 还尝试了将 Helix 运用在一个高难度多智能体操作场景中:两台 Figure 机器人之间协作实现零样本杂货存放。这两台机器人都采用了相同的 Helix 模型权重进行操作,不再需要对机器人进行训练或分配角色,它们之间能通过自然语言进行合作。

如下面视频中所展示的,“将一袋饼干递给你右边的机器人”或“从你左边的机器人那里接过一袋饼干并将饼干放在打开的抽屉里”,两台机器人能灵活协同处理问题。

搭载 Helix 的机器人还展现出了强大的泛化能力。只要一个简单的“拿起 [X]”命令,机器人几乎能拿起所有的小型家庭用品。在系统测试中,机器人成功处理了杂乱无章的数千件新物品),不需要任何事先演示或自定义编程。

更难得的是,Helix 能弥合语言理解与机器控制之间的距离。例如,当指示机器人“捡起沙漠物品”时,Helix 不仅能识别出玩具仙人掌,还能选择最近的手去抓住物品。这种通用的“语言到动作”的掌握能力,让机器人部署在非结构化环境中有了新可能。

Figure 创始人 Brett Adcock 表示,团队花了一年多的时间研发出了 Helix,让人形机器人无需经过任何训练、代码,就能抓取几乎任何家庭用品。


2


首创“系统 1、系统 2” VLA,慢思考与快思考

Helix 是首创的“系统 1、系统 2”VLA 模型,可对人形机器人的整个上半身进行高速、灵巧的控制。

先前的方法面临着一个取舍:VLM主干网络具有通用性但速度不快,机器人视觉运动策略速度快但通用不足。而 Helix 通过两个互补的系统解决了这一权衡,这两个系统经过端到端的训练,可以实现通信:

这种解耦架构允许每个系统在其最佳时间尺度上运行。S2 可以“慢慢思考”高级目标,而 S1 可以“快速思考”以实时执行和调整动作。

Figure 所采用的分层式的架构具备分而治之的优势,能对不同任务模块进行独立优化和迭代。目前业内分层式架构和一体式架构并存,后者有 1X Technologies、星动纪元等机器人厂商代表。这两种方案并无显著优劣之分,都还在探索阶段。

与现有方法相比,Helix 的设计有几个主要优势:

Figure表示,Helix 以极少的资源实现了强大的泛化能力,一共使用了约 500 小时的高质量监督数据来训练 Helix,仅占此前采集的VLA数据集的一小部分(<5%),而且不依赖机器人实体收集数据或多阶段训练。

尽管数据要求相对较小,但 Helix 可以扩展到更具挑战性的动作空间,即完整的上半身人形控制,具有高速率、高维度的输出。

参考链接:https://www.figure.ai/news/helix


更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!


公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

//


近期热门文章


为什么中国只有一个 DeepSeek?


谁将替代 Transformer?


Andrej Karpathy 最新视频盛赞 DeepSeek:R1 正在发现人类思考的逻辑并进行复现

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Figure Helix 人形机器人 VLA模型
相关文章