与 Open AI 分手后，Figure 推出具身模型 Helix，多个机器人一同做家务

原创吴华秀 2025-02-21 18:43 广东

Figure 首个 VLA 模型，有效实现人形机器人上半身高效控制。

作者丨吴华秀

编辑丨陈彩娴

两周前，Figure 宣布停止与 Open AI 的联姻，并丢下一个预告，将会未来 30 天内推出“人形机器人上从未见过的东西”。

勾起不少人好奇心的 Figure，这回终于丢出了一个重磅：将首个自研具身模型 Helix 装入机器人Figure。Figure 创始人兼 CEO Brett Adcock 表示，有了大脑 Helix 的加持，机器人能够拾取任何家庭物品。

视频画面中，一台桌子，一台冰箱，两个机器人合伙一同整理物品，将它们从未见过的物品挨个分门别类放好。动作全程行云流水，无比丝滑。

尤其是两机器人传递物品时抬头的那一对望，让不少网友直呼机器人仿佛有了意识，“原来这就是心电感应”。

这得益于 Helix 对机器人上半身的全控制，其中涵盖手腕、躯干、头部和各个手指，能够对机器人上半身进行高速率的连续控制。

同时，视频中还罕见地展示了多个机器人间的协作与配合。“多机协作是一个亮点，不过这次 Figure 机器人之间的协作任务还比较简单。”一位从业者告诉 AI 科技评论，多机协作的交互和规划会是一个重要课题，但目前优先级还是让单一机器人能真正落地干活，这也是当下机器人厂商普遍的发力点。

在具体任务的执行上，Figure 表示，只要向机器人发话，机器人便能拾取各种各样从未见过的家庭用品。比如拾取生活中的各种物品，玩具、杯子等等。

不过，正和其他机器人厂商一样，目前 Helix 仍还处在比较早期的阶段。

实现高速上半身控制，达到多机器人协作

Helix 是一个通用的“视觉-语言-感知”（VLA）模型，将感知、语言理解和学习控制统一起来，取得一系列首创：

整个上身控制：首次对人形机器人上半身（包括手腕、躯干、头部和各个手指）进行高速率连续控制的VLA。

多机器人协作：首个同时在两个机器人上运行的VLA，能够使用从未见过的物品解决共享的远程操作任务。

拿起任何东西：只需按照自然语言提示，就能拿起几乎任何小型家居物品，包括数千种它们从未遇到过的物品。

一个神经网络：与之前的方法不同，使用一组神经网络权重来学习所有行为（挑选和放置物品、使用抽屉和冰箱以及跨机器人交互），而无需任何针对特定任务的微调。

已做好商业准备：首款完全在嵌入式低功耗 GPU 上运行的 VLA，可立即进行商业部署。

在对机器人上半身的控制上，Helix 能以 200Hz 频率协调 35 自由度动作空间，让机器人的上半身从手指、手腕到头部的动作流畅高效。头部与躯干控制存在独特挑战——当头部移动时，将会改变机器人的接触距离和视线范围，以往这种变化会导致机器人不稳定。

视频中，机器人用头部平稳地跟踪双手，同时调整躯干以获得最佳范围，同时保持精确的手指控制以抓握物品。Figure 表示，此前还没有 VLA 能展示这种程度的实施协调，同时保持多任务泛化能力。

Figure 还尝试了将 Helix 运用在一个高难度多智能体操作场景中：两台 Figure 机器人之间协作实现零样本杂货存放。这两台机器人都采用了相同的 Helix 模型权重进行操作，不再需要对机器人进行训练或分配角色，它们之间能通过自然语言进行合作。

如下面视频中所展示的，“将一袋饼干递给你右边的机器人”或“从你左边的机器人那里接过一袋饼干并将饼干放在打开的抽屉里”，两台机器人能灵活协同处理问题。

搭载 Helix 的机器人还展现出了强大的泛化能力。只要一个简单的“拿起 [X]”命令，机器人几乎能拿起所有的小型家庭用品。在系统测试中，机器人成功处理了杂乱无章的数千件新物品），不需要任何事先演示或自定义编程。

更难得的是，Helix 能弥合语言理解与机器控制之间的距离。例如，当指示机器人“捡起沙漠物品”时，Helix 不仅能识别出玩具仙人掌，还能选择最近的手去抓住物品。这种通用的“语言到动作”的掌握能力，让机器人部署在非结构化环境中有了新可能。

Figure 创始人 Brett Adcock 表示，团队花了一年多的时间研发出了 Helix，让人形机器人无需经过任何训练、代码，就能抓取几乎任何家庭用品。

首创“系统 1、系统 2” VLA，慢思考与快思考

Helix 是首创的“系统 1、系统 2”VLA 模型，可对人形机器人的整个上半身进行高速、灵巧的控制。

先前的方法面临着一个取舍：VLM主干网络具有通用性但速度不快，机器人视觉运动策略速度快但通用不足。而 Helix 通过两个互补的系统解决了这一权衡，这两个系统经过端到端的训练，可以实现通信：

系统 2 (S2)：一个机载互联网预训练的 VLM，以 7-9 Hz 的频率运行，用于场景理解和语言理解，从而实现跨对象和上下文的广泛概括。

系统 1 (S1)：一种快速反应的视觉运动策略，将 S2 产生的潜在语义表征转化为 200 Hz 的精确连续机器人动作。

这种解耦架构允许每个系统在其最佳时间尺度上运行。S2 可以“慢慢思考”高级目标，而 S1 可以“快速思考”以实时执行和调整动作。

Figure 所采用的分层式的架构具备分而治之的优势，能对不同任务模块进行独立优化和迭代。目前业内分层式架构和一体式架构并存，后者有 1X Technologies、星动纪元等机器人厂商代表。这两种方案并无显著优劣之分，都还在探索阶段。

与现有方法相比，Helix 的设计有几个主要优势：

速度和泛化：Helix 匹配专门的单任务行为克隆策略的速度，同时将零样本推广到数千个新颖的测试对象。

可扩展性：Helix 直接输出高维动作空间的连续控制，避免了先前 VLA 方法中使用的复杂动作标记方案，这些方案在低维控制设置（例如二值化并行夹持器）中已取得一些成功，但在高维人形控制中面临扩展挑战。

架构简单：Helix 使用标准架构 - 用于系统 2 的开源、开放权重 VLM 和用于 S1 的简单的基于变压器的视觉运动策略。

关注点分离：将 S1 和 S2 解耦，我们可以分别在每个系统上进行迭代，而不受寻找统一的观察空间或动作表示的限制。

Figure表示，Helix 以极少的资源实现了强大的泛化能力，一共使用了约 500 小时的高质量监督数据来训练 Helix，仅占此前采集的VLA数据集的一小部分（＜5%），而且不依赖机器人实体收集数据或多阶段训练。

尽管数据要求相对较小，但 Helix 可以扩展到更具挑战性的动作空间，即完整的上半身人形控制，具有高速率、高维度的输出。

Fish AI Reader