不要小瞧機器人的羈絆！Figure AI發佈能「雙機協作」的端側大模型

①Helix是首款能对整个人形机器人上半身进行高频率、连续控制的视觉-语言-动作（VLA）模型；②机器人无需大量训练，就能根据自然语言命令完成任务；③Helix也是首个能同时在两台机器人上运行的VLA，同时具有强大的可拓展性。

在2月初终结与OpenAI的AI模型合作后，美国机器人创业公司Figure AI如期在周四公开了背后的原因：公司已经有更厉害的通用具身智能模型Helix。

Figure AI表示，Helix是首款能对整个人形机器人上半身（包括头部、躯干、手腕和手指）进行高频率、连续控制的视觉-语言-动作（VLA）模型。通过直接将视觉语言模型中捕获的丰富语义知识，直接转化为机器人动作，克服了人形机器人领域的多个长期挑战——至少不需要为机器人的每一个动作进行大量训练了。

为了解决视觉语言模型“通用、但不快速”，和机器人视觉运动策略“快速、但不通用”的矛盾，Figure通过建立一套互补的系统进行权衡。两套系统通过端到端训练以进行通信。

如下图所示，系统2是开源、开放权重的70亿参数量端侧互联网预训练视觉语言模型，用于理解场景和自然语言；系统1是一个8000万参数量的快速反应视觉运动策略，将系统2理解的语义转化为每秒200次的精确连续机器人动作。

Figure介绍称，训练Helix仅仅用了500个小时的高质量监督数据，总量连之前收集的VLA数据集5%都不到，并且不需要多机器人数据或多阶段训练。

作为这项科技突破的结果，搭载Helix的机器人现在可以根据自然语言指令，识别并拾取几乎所有的小型家居物品，包括机器人从未见过的成千上万物品。在公司给出的案例中，机器人在接受“拿起那个仙人掌”、“拿起沙漠里的东西”时，都能选择最接近玩具的手，成功从一堆物品中拎出仙人掌玩具。

在实际操作中，配备Helix的Figure机器人通过简单的“捡起XX”指令，成功处理了成千上万次的任务，同时无需任何提前演示或额外编程。

当然，以上都是常规操作，接下来就是展现技术的时刻了。

Figure介绍称，Helix是首款可以在人形机器人上协同运行的AI模型，使得两台机器人可以协作解决一个共享的、长期的操作任务。

在演示案例中，两台模型权重相同的Figure机器人需要面对一堆首次见到的杂物，自行决定应该放在柜子、冰箱、盆子等收纳位置。

本次挑战的难点，是研究人员故意将一些物品放在另一个机器人面前，这意味着需要两台机器人协作才能完成摆放。

演示中，机器人之间不仅能互相理解对方和衔接动作，似乎还有一种特殊的羁绊——在交接物品时，两台机器人一定要互相对看一眼，确认彼此的“眼神”。

在演示的最后，Figure也在摆放水果的操作中展现出更高水平的协作：左边的机器人把果盆拉过来，右边的机器人顺手把水果放进去，然后左边的机器人再把果盆放回原位。

结束首次VLA模型在多机器人之间灵活、扩展的协作操作后，Figure强调这仅仅是触及了“可能性的表面”，公司渴望看到将Helix规模扩大1000倍后会发生什么。

Figure介绍称，Helix完全能够在嵌入式低功耗GPU上运行，现在立即可以进行商业部署。

根据早些时候的报道，在发布机器人AI系统演示的同时，Figure正在进行一轮目标15亿美元的融资，估值将达到395亿美元。作为对比，去年该公司融资时的估值仅为26亿美元，光从这两个数字就能感受到当下机器人赛道的爆火情绪。

编辑/new

Fish AI Reader