量子位 前天 17:07
Figure自曝完整技术:60分钟不间断打工,我们的机器人如何做到?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文聚焦Figure 02机器人在物流分拣领域的最新进展,详细介绍了其在数据扩展和架构改进方面的突破。通过对高质量演示数据集的扩充和Helix神经网络视觉电机策略的优化,Figure 02在处理多种包裹类型、提升工作效率和稳定性方面取得了显著成果。文章还探讨了机器人对环境的感知、人机交互能力,以及对未来物流行业的影响。总而言之,这项技术革新预示着物流自动化领域迈出了重要一步。

📦 数据扩展:通过增加训练数据,Figure 02机器人能够处理更多形状和材质的包裹,包括聚乙烯袋、信封等。这使得机器人能够执行更复杂的任务,如包裹反转和抓取,并且在处理速度和条形码识别准确率方面都得到提升。

🧠 架构改进:Figure 02的Helix视觉电机策略进行了针对性优化,引入了视觉记忆、状态历史和力反馈模块。视觉记忆模块让机器人能够结合多帧图像,形成短期视觉记忆,从而更有效地定位条形码。状态历史记录上下文信息,即使在规划中断或受到干扰时,也能保持机器人的稳定性。力反馈模块则赋予机器人触感,使其能够根据受力情况动态调整运动。

🤝 人机交互:Figure 02的端到端模型支持人机交互,当人类伸手时,机器人会自动将包裹递交给人类。这展示了Helix神经网络的灵活性,通过少量演示即可学习新的上下文相关行为。

⏱️ 性能提升:改进后的Figure 02在高速工作负载下的稳定性得以长足发展,条形码定向朝下的成功率提高到94%,平均处理时间降至4.05s,同时精度保持在92%以上。

关注前沿科技 2025-06-13 13:07 北京

受益于数据扩展和架构改进

鹭羽 发自 凹非寺量子位 | 公众号 QbitAI

好家伙,机器人进厂打工原视频流出,整整60分钟,完全未剪辑。

前几天Figure 02晒1分钟物流分拣视频,网友们完全没看够啊。

于是Figure创始人立马60分钟进厂打工vlog(未删减版)奉上。

可灵活处理更多类型包裹,更接近人类水平的硬件运动,仔细看机器人在工作时,还会实时查看新数据来观察学习。

可以很轻松地从一堆非结构化的杂乱对象中抽出包裹,并在推走一个包裹的同时,伸手去取另外一个包裹。

要知道,3个月前它还是这样的:

短时间内整体性能飞速提升,到底发生了什么?

刚刚官方同步释出的完整技术解读文档来答疑解惑了。

受益于高质量演示数据集的扩展,以及对Figure自研的Helix神经网络的视觉电机策略(visuo-motor policy)进行架构改进,机器人在高速工作负载下的稳定性得以长足发展。

另外通过启动状态感知和力感应,在不牺牲效率的情况下还全面增强了机器人的稳健性和适应性。

更多详细技术细节如下。

数据扩展

将前后两次视频对比,物流任务明显扩展至更多形态的包裹,除了标准的硬纸盒,现在还可以处理聚乙烯袋、信封和其它可折叠、皱缩或弯曲的物品。

这让机器人完成包裹反转,并抓取和定位标签的难度陡然提升。

针对不同形态包裹,Helix采取即时调整抓取策略解决,例如碰到纸盒就双手上下一翻,碰到信封则一只手扶住,另一只手轻轻捏住边缘翻转。

值得注意的是,机器人还会轻轻拍打塑料包装以抚平起皱的货物条形码,这是机器人自己从演示中学习到的自适应行为,侧面凸显出端到端学习的优势。

尽管包裹的形状质地都得以扩展,还有新动作的产生,但丝毫没有影响工作效率。

实验表明,增加训练数据可以显著提高吞吐量和准确性,在10到60小时中,包裹的平均处理速度约为4.05s,吞吐量提高了58%,条形码成功率也从88.2%升至94.4%

总之,这些改进都表明了这是一个更加灵巧和可靠的系统,可以在广泛的实际包裹中,更接近人类水平的速度和准确性。

架构改进

研究团队对Helix的视觉电机策略的架构进行了针对性改进,引入了新的内存和传感模块,能更好地帮助机器人感知环境变化。

具体来说,可以分为视觉记忆状态历史力反馈三个部分:

Helix配备了一个新的内存模块,可以从系列视频帧中组合特征,再形成短期视觉记忆。

例如,在初始摄像机图像中没有完全显示标签,Helix就可以调用前一时刻的图像帧,并控制手部将包裹旋转至标签可见的记忆角度。

期间,机器人还可以记住它已经检查过的包装侧面,避免重复检查,提高成功率。

从本质上讲,视觉记忆为Helix提供了时间背景感,可以更有效地通过多次小型旋转或视点调整来查找条形码位置。

该策略在固定持续时间内的动作分块(action chunk)中运行,也就是将连续动作序列分割为固定长度的小段进行规划和执行。

首先会观察当前状态(手、躯干和头部)并输出一小段运动轨迹,反复重新观察多次后,再将全部状态合并输入,以确保模块间的连续性。

由于状态历史记录保留了上下文,即使重新规划或面对干扰,机器人仍能保持稳健,例如当包裹抓取失败时,Helix会以最小的延迟迅速纠正运动,显著缩短了处理时间。

为了赋予Helix触感,机器人施加在环境和目标上的力,被反馈送至神经网络状态输入中,以帮助机器人动态调整运动过程,例如当它检测到与传送带接触时,会暂停向下继续运动。

通过一个闭合回路,Helix可以实现更精准的控制,提高运动的成功率和一致性,也更能适应不同形态重量的物流包裹。

在启用新策略后,条形码定向朝下的成功率提高到94%,平均处理时间降至4.05s,同时精度保持在92%以上。

另外,Figure 02除了可以完成自主分拣,其端对端模型还可以轻松建立人机交互

无需单独的程序或模式开关,仅通过神经网络的视觉调节,当站在一旁的人类伸出手,机器人就会自动认定这是交出物品的提示,并将包裹递交给人类而不是传送带。

这反映了Helix神经网络的灵活性,只需少量演示,即可学习新的上下文相关行为。

One More Thing

视频一出,Figure创始人的评论区就炸开了锅。

有网友乐见其成,赞叹Figure不搞demo,直接放一小时视频的自信。

有网友看到机器人参与物流工作带来的效率和成本考量。

自然也少不了老生常谈的话题:人类怎样才能避免被机器人取代?

也有技术宅思考为什么物流机器人一定要仿人类外型,三头六臂似乎效率更高。

当然也少不了拿放大镜看视频的乐子人,致力于找机器人的茬。

也欢迎大家一起来找茬,或者在本评论区留下你的真知灼见。

参考链接:[1]https://www.figure.ai/news/scaling-helix-logistics[2]https://www.figure.ai/news/helix[3]https://www.figure.ai/news/helix-logistics[4]https://x.com/adcock_brett/status/1931391783306678515

—  —

📪 量子位AI主题策划正在征集中!欢迎参与专题365行AI落地方案,一千零一个AI应或与我们分享你在寻找的AI产品,或发现的AI新动向

💬 也欢迎你加入量子位每日AI交流群,一起来畅聊AI吧~

一键关注 👇 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

机器人 物流 人工智能 Figure 02
相关文章