虎嗅 02月21日
刚甩掉OpenAI的Figure机器人,转身就爆火
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Figure公司发布了其最新的通用具身智能模型Helix,旨在解决机器人技术中的长期难题,并推动家用机器人的普及。Helix是一种通用的视觉-语言-行动模型,融合了感知、语言理解和学习控制能力,能够适应并操作各种家居物品。该模型实现了多个行业首创,包括高速连续控制人形机器人上半身、同时运行在两台机器人上进行协作,以及无需特定任务微调即可拾取各种家用物品。Helix的突破在于利用视觉语言模型中积累的丰富语义知识来指导机器人行为,使其具备更强的适应能力和泛化能力。Figure的最终目标是让每个家庭都能拥有一台机器人,而Helix是实现这一目标的重要一步。

🤖Helix是一种通用的视觉-语言-行动模型,它融合了感知、语言理解和学习控制能力,旨在解决机器人技术中长期存在的多个难题,使机器人能真正理解和执行各种复杂任务,具备更强的适应能力。

🦾Helix是首个能够对整个人形机器人上半身进行高速连续控制的VLA,包括手腕、躯干、头部以及单个手指,实现了身体各部位的移动相互影响的复杂连锁反应的精准控制。

🤝Helix是首个能够同时运行在两台机器人上的VLA,使它们能够协作完成一个共享的长时任务,即便面对的是从未见过的物品,也仅通过简单的语言指令就能默契配合。

💡Helix采用端到端的训练方法,直接从原始像素和文本命令映射到连续动作,仅使用了约500小时的高质量监督数据,实现了更强的泛化能力,降低了训练成本。

与OpenAI官宣“分手”后,人形机器人公司Figure在X平台放出狂言,宣称其内部AI模型取得重大突破,将在接下来的30天内展示前所未见的创新成果。

这一天的到来没有让我们等太久,Figure深夜正式发布通用具身智能模型Helix。

Figure创始人Brett Adcock在X平台发文称,Helix团队的目标是攻克通用机器人技术——让每个家庭都能拥有一台机器人,虽然还有很长的路要走,但目前的成果已经初见成效。

“介绍Helix,我们最新的AI,它的思维方式更接近人类。要让机器人真正走进家庭,我们需要能力上的巨大飞跃。Helix能够适应并操作任何家居物品。”

具体来说,Helix是一种通用的视觉-语言-行动模型,它融合了感知、语言理解和学习控制能力,旨在解决机器人技术中长期存在的多个难题。

按照Figure的说法,Helix在多个方面实现了行业首创:

    Helix是首个能够对整个人形机器人上半身进行高速连续控制的VLA,包括手腕、躯干、头部以及单个手指。

    Helix是首个能够同时运行在两台机器人上的VLA,使它们能够协作完成一个共享的长时任务,即便面对的是从未见过的物品。

    配备Helix的Figure机器人现在几乎可以拾取任何小型家用物品,包括成千上万种它们以前从未接触过的物品,只需遵循自然语言指令即可完成操作。

    与以往的方法不同,Helix仅使用一组神经网络权重来学习所有行为——从拾取和放置物品,到使用抽屉和冰箱,再到跨机器人交互——无需针对特定任务进行额外微调。

    Helix是首个完全运行在嵌入式低功耗GPU上的VLA,意味着它已具备直接商业化部署的能力。


比技术报告更直击人心的当属Figure官方发布的演示视频。

还是熟悉的家庭场景,画面中的男人三言两语就给两个Figure 02机器人交代了任务——运用Helix AI模型,推理眼前这些第一次看到的物品所属的位置,然后协作收拾好。

这对机器人搭档收拾家务主打一个行云流水,当机器人递过来一个苹果,另一个机器人秒Get同伴的心思,主动递过去一个黑色大碗,搭配暗黑色调,赛博朋克风格拉满。

分类冷藏,这对机器人搭档分工明确,配合默契,整理完还不忘关上冰箱门,比一些真人室友还要靠谱。

一个递,一个放,手脚相当麻利。

脑子也很灵活,让其捡起眼前“沙漠物品”,它二话不说就能在众多物品中准确拣出仙人掌玩偶。

一些X网友甚至将这一成果比作“人形机器人领域的iPhone时刻”。

虽然这种评价有些夸大其词,但Helix确实解决了家用机器人领域长期以来的一个核心难题,在理想的家庭场景中,你可以简单地告诉机器人做某事,它就会去做。

但与标准化的工业环境不同,家庭场景复杂多变,衣物可能皱皱巴巴地散落在各处,餐具可能有着不同的形状和材质,甚至每天都会出现全新的物品,这对家庭机器人的适应能力提出了极高的要求。

传统的解决方案往往需要投入大量资源。一种是请博士级专家花费大量时间为每个具体任务编写专门的程序;另一种是通过数千次反复示范来训练机器人学习特定动作。

显而易见,这些方法不仅耗时费力,而且成本高昂,难以在家用机器人领域大规模普及。基于此,Figure团队提出了一个新的解题思路。

既然AI在图像识别、语言理解等领域已经展现出强大的学习能力和即时泛化能力,那为什么不利用视觉语言模型中积累的丰富语义知识来指导机器人行为,特别是这些模型通过对互联网大规模数据的学习,已经积累了大量关于物体、场景和行为的常识性知识。

点子有了,但路还没有走通。

如何从VLM中提取这些常识性知识,并将其转化为可泛化的机器人控制?而这正是打造Helix的核心目标——让机器人能真正理解和执行各种复杂任务,使其具备更强的适应能力。

与传统机器人系统相比,Helix最大的优势在于无需繁琐的任务演示或复杂的编程,就能自主完成从简单的物品抓取到复杂的协作任务等多样化操作。

作为评价机器人智能水平的关键指标,机器人能否自主处理未见过的场景和物品,将决定其实用价值。

凭借强大的泛化能力,Figure机器人能够通过自然语言指令,识别和操作数千种不同形状、大小、颜色和材质的家居用品,即使是从未见过的物品也能准确处理。

技术层面上,Helix的运作依赖于两个紧密配合的系统。一个是负责高层语义理解的System 2,另一个是负责实时控制的System 1。

用更通俗的话来说,S2负责“思考”,S1负责“行动”。其中,S2系统以7-9Hz的频率运行,持续处理机器人摄像头拍摄的画面和接收到的语言指令,将其转化为机器人可以理解的行为指令。

而S1系统则以200Hz高频率运行,基于S2的指令和实时环境数据,精确控制机器人的每个动作。

为了支持这种高效运算,每台配备Helix的Figure机器人都装有双低功耗嵌入式GPU,通过高效的并行计算实现流畅的控制效果。

在实际应用场景中,Figure 02不仅能精确控制每一个手指的动作、手臂的运动轨迹、头部的转向和身体姿态,更重要的是实现了实时整体协调效果。

执行任务时,Figure 02机器人能像人类一样自然地移动双手,同时调整头部和身体位置,以获得最佳的操作视角和活动范围。

据Figure官方介绍,这种全身协调的精准控制在机器人领域是一个重大突破,因为身体各部位的移动会相互影响,形成复杂的连锁反应,传统技术往往很难解决这个问题。

Helix的另一个重大突破则是实现了真正的多机器人协作。

在测试中,两台Figure机器人共享同一套模型权重,无需为每台机器人单独训练或进行多阶段训练,仅通过简单的语言指令就能默契配合。

比如,当系统收到“把饼干袋递给右边的机器人”,接着“将饼干袋放入抽屉”这样的连续指令时,两台机器人能完美配合完成任务,即使是首次遇到的物品也能手拿把掐。

降低训练成本是推动机器人普及的关键。通过采用端到端的训练方法,Helix能够直接从原始像素和文本命令映射到连续动作。

据悉,Helix仅使用了约500小时的高质量监督数据,却实现了更强的泛化能力。而且,Helix还通过梯度反向传播和时间偏移机制,让训练成果能够顺利地应用到实际场景中。

“这仅仅是Helix潜力的冰山一角。”Figure公司表示,“如果将Helix规模扩大1000倍,当它能够驱动数百万个机器人时,将为人类社会带来巨大的改变。”

技术突破的背后有着资本市场的强力支持。Figure在月初的时候表示,公司已与宝马制造公司以及一家未透露姓名的美国大客户达成合作。Adcock透露,这些合作关系将为“未来四年内实现10万台机器人”奠定基础。

去年,这家人形机器人公司完成了6.75亿美元的B轮融资,投资方包括OpenAI、微软、英伟达和Jeff Bezos,融资后估值达到26亿美元。

据报道,该公司正洽谈再筹集15亿美元融资,若成功,其估值将升至395亿美元。

科技巨头对人形机器人领域的密集投资,或许预示着这个市场可能即将迎来拐点,家用机器人市场有望迎来类似智能手机的爆发期。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Figure Helix 具身智能 人形机器人
相关文章