机器人聚焦

今天机器人板块回调较大，主要是恒立液压价格口径和两会前资金风格切换的影响，但午盘后板块有所回升，往后看机器人的行情会更聚焦。

特斯拉机器人在3月份催化较多：三代机器人视频、发布会、首批供应商合同签署（份额确定）。重点关注两个方向：1）份额预期差：博世及舍弗勒的实际份额会比当前市场预期要高，产业链相关公司：三联锻造、夏厦精密、丰立智能、德迈仕等；2）三代机器人增量变化：灵巧手电机、传感器。往后看，在Q2量产后需观察实际产量爬坡情况。

国产机器人公司在这个时间段会密集发布新品，除了已经有预期的宇树、小米、奇瑞等，重点关注华为机器人，有进展后易引起情绪共振。6月极目机器人产品发布和9月华为全联接大会是潜在的两个催化时间点，关注车BU和极目在机器人方面合作的供应商富临精工、信质集团、祥鑫科技等。

最近Figure等公司密集发布大脑模型的进展，英伟达3月GTC大会也会继续引发市场对软件模型的关注。Figure和1X之后，国内公司在大脑模型上的进展更值得期待。目前国内机器人公司已经形成了以宇树、众擎为代表的重小脑运动控制派和星动纪元、银河通用为代表的重大脑模型派。星动和银河相关公司：星动大脑域控制器天准科技、银河本体代工均普智能、银河合资天奇股份。

更激进一些去想，机器人板块里还有哪些核心资产能像宇树那样，目前看了下就是Figure的Helix，机器人最好的大脑，近几天催化不断。

2月20日Figure AI发布Helix VLA大模型引爆市场关注，但我们发现市场对于具身智能大模型的认知还相当粗浅，下文希望通俗易懂的讲明白，我们需要什么样的具身智能大模型？我们离真正的具身智能大模型还有多远？

问题一：具身智能大模型（VLA）是什么？

VLA（Vision-Language-Action）大模型指的是视觉-语言-动作大模型，能够让机器人通过理解环境和语言指令，并通过执行模块输出为动作。

问题二：VLA大模型中分层和端到端模式的区别？业界目前的选择是什么？

VLA模型在执行过程中，一般有三个步骤——1）接收并理解语音和图像输入；2）根据接收的信息做推理决策；3）根据决策生成动作指令并控制机器人运动。简单来说，如果这三个步骤是在一个模型中完成的，则被是端到端大模型，如果这三个步骤分别是调用三个不同的模型完成，则是分层模型。

端到端模式的优缺点：1）优点在于反应速度快+规模化+能够实现智能涌现；2）缺点在于难度高+需要大量训练数据+短期难以落地。

结论&现实情况：短期视角来看，目前国内初创人形机器人企业多采用分层模式，主要是为了快速商业化落地；仅有少数企业例如特斯拉、星动纪元等坚持端到端模型，但从长期视角来看，端到端模式是最终实现具身智能涌现的必要条件。

问题三：为何我们无法训练出好用的端到端具身智能大模型——瓶颈在于数据。

1）数据量差距巨大：相较于VLM大模型亿条级别的数据量，目前机器人实际单一场景的训练数据量仅仅在千条和万条级别，差距百倍。

2）机器人数据获取难度极高：相较于互联网上常见的语料供VLM大模型训练，机器人训练数据获取难度极高。目前有两种数据获取模式：

①真实数据遥操采集：问题在于成本极高，目前动捕设备一套价格在几十万区间，初创企业如果要靠动捕设备遥操采集数据，成本非常高；

②虚拟生成数据：例如银河通用发布的GraspVLA，通过虚拟仿真技术生成数据，用于机器人训练，但目前难以解决sim-to-real gap。简单来说，就是用虚拟仿真数据训练机器人效果很差，如果是简单的抓放搬运场景，虚拟数据相对可行，但如果涉及到柔性场景，比如说衣服被子等柔性物体，就很难运用。因为涉及到柔性物体形变的仿真，在物理层面本身就很难建模。

③真人数据映射：UMI和DexCap（斯坦福机器人团队）等正在探索真人数据映射（即采集真实人的数据，通过某种映射关系转化为机器人数据），但目前还比较早期。

3）遥操采集的数据本身存在毒性：①人在运动过程中会有额外的运动轨迹：例如简单的搬箱子，人在遥操录制过程中，可能会因为外界干扰停顿几秒，但这个停顿对于机器人来说就存在毒性，因为其无法理解人为什么要停顿。②人的运动轨迹和机器人不一致：目前市面上大量机器人都是以旋转关节为主，而人的上下肢是直线关节，因此同样是搬箱子的动作，人和机器人的运动轨迹就是不一致的，这时候用真人的数据去训练机器人本身就存在毒性。

4）机器人本体方案未收敛导致数据难以复用：例如用特斯拉本体采集的数据很难给智元的机器人来训练，因为本体方案不同。

问题四：数据端存在这么多问题，业界如何解决？

真实的情况是，业界目前还无法解决上述数据端的问题。但目前各家都选择在自己的方案上努力收集数据，先在单一场景下实现一定程度的泛化，从而让更多人形机器人投入实际运用。我们认为可能是3-5年后，当市场上有足够多的人形机器人数据，并且硬件方案逐步收敛，具身智能基础模型呈现出一定的智能涌现，才有可能实现真正的端到端具身智能大模型。

问题五：能否采用Deepseek的范式来加速具身智能大模型的发展？

Deepseek是通过pre-train+post-train（强化学习）的模式，并且导入高质量数据，来降低大模型的算力和数据量需求。但目前来看，这种范式对具身智能大模型来说，路径是正确的，但基本要素还不具备。一方面，具身智能大模型并没有一个强大的基础模型；另一方面，也不存在一个完善的强化学习流程。学界一直在推行所谓的模仿学习+后训练强化学习的方案（类似于deepseek的路线），就是通过模仿学习达成0-1，然后通过强化学习达成1-10，但目前来看必要条件还未达成。

问题六：Figure Helix大模型详解和局限点解析：

Helix的特点是准分层架构，用一个开源的70e参数的VLM作为大脑，然后下面结合一个Transformer架构的动作策略快系统，这个快系统实际只要用8000万参数去吸收500h的数据，然后使其泛化性变得足够强。

PS：简单理解就是大脑的思考完全交由VLM大模型，因为互联网上有很多家居的视频和数据，因此可以问题通过VLM大模型去进行解析，本身VLM大模型就已经有很好的泛化性。再讲解析出来的指令通过快系统去执行。

优劣点解析：

Helix的优点在于：1）快速商业化能力，能够用很小的数据量达到很好的泛化水平

Helix的劣势在于：1）Helix是一种纯模仿学习，还没有上强化学习；2）没法处理突发情况，例如一些碰撞和避障；3）互联网上海量的数据还是集中在生活场景多一些，工业数据很少，因此helix可能短期内更适用于家居场景，工业场景使用难度更高。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签