调研纪要 03月02日
机器人聚焦
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨机器人板块行情,包括特斯拉机器人、国产机器人新品发布等,还深入分析具身智能大模型,如VLA大模型的相关问题及Figure Helix大模型的特点等。

🎈3月关注特斯拉机器人,涉份额预期差及增量变化

🎉Q2-Q3聚焦国产机器人新品发布,关注相关催化时间点

💡探讨具身智能大模型,如VLA的概念、模式与瓶颈

🤖分析Figure Helix大模型的详解和局限点

2025-02-27 23:53 广东

今天机器人板块回调较大,主要是恒立液压价格口径和两会前资金风格切换的影响,但午盘后板块有所回升,往后看机器人的行情会更聚焦。


1、3月聚焦特斯拉机器人

特斯拉机器人在3月份催化较多:三代机器人视频、发布会、首批供应商合同签署(份额确定)。重点关注两个方向:1)份额预期差:博世及舍弗勒的实际份额会比当前市场预期要高,产业链相关公司:三联锻造、夏厦精密、丰立智能、德迈仕等;2)三代机器人增量变化:灵巧手电机、传感器。往后看,在Q2量产后需观察实际产量爬坡情况。


2、Q2-Q3聚焦国产机器人

国产机器人公司在这个时间段会密集发布新品,除了已经有预期的宇树、小米、奇瑞等,重点关注华为机器人,有进展后易引起情绪共振。6月极目机器人产品发布和9月华为全联接大会是潜在的两个催化时间点,关注车BU和极目在机器人方面合作的供应商富临精工、信质集团、祥鑫科技等。


3、机器人大脑

最近Figure等公司密集发布大脑模型的进展,英伟达3月GTC大会也会继续引发市场对软件模型的关注。Figure和1X之后,国内公司在大脑模型上的进展更值得期待。目前国内机器人公司已经形成了以宇树、众擎为代表的重小脑运动控制派和星动纪元、银河通用为代表的重大脑模型派。星动和银河相关公司:星动大脑域控制器天准科技、银河本体代工均普智能、银河合资天奇股份。


4、Figure链

更激进一些去想,机器人板块里还有哪些核心资产能像宇树那样,目前看了下就是Figure的Helix,机器人最好的大脑,近几天催化不断。


2月20日Figure AI发布Helix VLA大模型引爆市场关注,但我们发现市场对于具身智能大模型的认知还相当粗浅,下文希望通俗易懂的讲明白,我们需要什么样的具身智能大模型?我们离真正的具身智能大模型还有多远?


问题一:具身智能大模型(VLA)是什么?

VLA(Vision-Language-Action)大模型指的是视觉-语言-动作大模型,能够让机器人通过理解环境和语言指令,并通过执行模块输出为动作。


问题二:VLA大模型中分层和端到端模式的区别?业界目前的选择是什么?

VLA模型在执行过程中,一般有三个步骤——1)接收并理解语音和图像输入;2)根据接收的信息做推理决策;3)根据决策生成动作指令并控制机器人运动。简单来说,如果这三个步骤是在一个模型中完成的,则被是端到端大模型,如果这三个步骤分别是调用三个不同的模型完成,则是分层模型。

端到端模式的优缺点:1)优点在于反应速度快+规模化+能够实现智能涌现;2)缺点在于难度高+需要大量训练数据+短期难以落地。

结论&现实情况:短期视角来看,目前国内初创人形机器人企业多采用分层模式,主要是为了快速商业化落地;仅有少数企业例如特斯拉、星动纪元等坚持端到端模型,但从长期视角来看,端到端模式是最终实现具身智能涌现的必要条件。



问题三:为何我们无法训练出好用的端到端具身智能大模型——瓶颈在于数据。

1)数据量差距巨大:相较于VLM大模型亿条级别的数据量,目前机器人实际单一场景的训练数据量仅仅在千条和万条级别,差距百倍。

2)机器人数据获取难度极高:相较于互联网上常见的语料供VLM大模型训练,机器人训练数据获取难度极高。目前有两种数据获取模式:

①真实数据遥操采集:问题在于成本极高,目前动捕设备一套价格在几十万区间,初创企业如果要靠动捕设备遥操采集数据,成本非常高;

②虚拟生成数据:例如银河通用发布的GraspVLA,通过虚拟仿真技术生成数据,用于机器人训练,但目前难以解决sim-to-real gap。简单来说,就是用虚拟仿真数据训练机器人效果很差,如果是简单的抓放搬运场景,虚拟数据相对可行但如果涉及到柔性场景,比如说衣服被子等柔性物体,就很难运用。因为涉及到柔性物体形变的仿真,在物理层面本身就很难建模。

③真人数据映射:UMI和DexCap(斯坦福机器人团队)等正在探索真人数据映射(即采集真实人的数据,通过某种映射关系转化为机器人数据),但目前还比较早期。

3)遥操采集的数据本身存在毒性:①人在运动过程中会有额外的运动轨迹:例如简单的搬箱子,人在遥操录制过程中,可能会因为外界干扰停顿几秒,但这个停顿对于机器人来说就存在毒性,因为其无法理解人为什么要停顿。②人的运动轨迹和机器人不一致:目前市面上大量机器人都是以旋转关节为主,而人的上下肢是直线关节,因此同样是搬箱子的动作,人和机器人的运动轨迹就是不一致的,这时候用真人的数据去训练机器人本身就存在毒性。

4)机器人本体方案未收敛导致数据难以复用:例如用特斯拉本体采集的数据很难给智元的机器人来训练,因为本体方案不同。


问题四:数据端存在这么多问题,业界如何解决?

真实的情况是,业界目前还无法解决上述数据端的问题。但目前各家都选择在自己的方案上努力收集数据,先在单一场景下实现一定程度的泛化,从而让更多人形机器人投入实际运用。我们认为可能是3-5年后,当市场上有足够多的人形机器人数据,并且硬件方案逐步收敛,具身智能基础模型呈现出一定的智能涌现,才有可能实现真正的端到端具身智能大模型。


问题五:能否采用Deepseek的范式来加速具身智能大模型的发展?

Deepseek是通过pre-train+post-train(强化学习)的模式,并且导入高质量数据,来降低大模型的算力和数据量需求。但目前来看,这种范式对具身智能大模型来说,路径是正确的,但基本要素还不具备。一方面,具身智能大模型并没有一个强大的基础模型;另一方面,也不存在一个完善的强化学习流程。学界一直在推行所谓的模仿学习+后训练强化学习的方案(类似于deepseek的路线),就是通过模仿学习达成0-1,然后通过强化学习达成1-10,但目前来看必要条件还未达成。


问题六:Figure Helix大模型详解和局限点解析:

Helix的特点是准分层架构,用一个开源的70e参数的VLM作为大脑,然后下面结合一个Transformer架构的动作策略快系统,这个快系统实际只要用8000万参数去吸收500h的数据,然后使其泛化性变得足够强。

PS:简单理解就是大脑的思考完全交由VLM大模型,因为互联网上有很多家居的视频和数据,因此可以问题通过VLM大模型去进行解析,本身VLM大模型就已经有很好的泛化性。再讲解析出来的指令通过快系统去执行。

优劣点解析:

Helix的优点在于:1)快速商业化能力,能够用很小的数据量达到很好的泛化水平

Helix的劣势在于:1)Helix是一种纯模仿学习,还没有上强化学习;2)没法处理突发情况,例如一些碰撞和避障;3)互联网上海量的数据还是集中在生活场景多一些,工业数据很少,因此helix可能短期内更适用于家居场景,工业场景使用难度更高。


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

机器人 具身智能 VLA大模型 Figure Helix
相关文章