原创 奇绩创坛 2025-05-07 20:41 北京
通往强人工智能的另一条有力技术路径的探索
类脑计算:最大魅力是机器人可在真实环境中成长
高性能灵巧手:与模型、硬件的适配挑战及仿生路径探索
场景落地:需求演进与未来技术栈的思考
类脑计算:
最大魅力是机器人可在真实环境中成长
奇绩:当前端到端 VLA 模型在具身智能领域备受关注,为什么我们还需要将目光投向类脑计算?
任化龙:主流技术路线有很明显的天花板,类脑计算才能把具身智能真正做明白,相较于大模型也能降低成本。
奇绩:你如何看待这些现有的主流具身智能技术路线?
任化龙:视觉模态的确很重要,但工业场景对视觉的要求比较苛刻。首先,很多场景难以采集大量数据,或由于行业保密等原因不便采集。其次,环境里可能存在光线变化,如过曝、昏暗、反光、烟雾或气体等。尽管人眼能清晰分辨气体运动,但深度学习模型无法有效捕捉。所以会有各种原因限制机器人在真实环境里运行。另外,无论是视觉模态还是具身大模型的语义模态,训练数据成本高、硬件开销大和训练周期长,都是制约传统技术发展的难题,也是大家期待解决的问题。
奇绩:能举例说明这些主流技术路线在应用中面临的问题吗?
任化龙:以抓取任务为例,我们接触过一些做具身的团队,其中不乏来自知名院校和专门研究抓取或操作的实验室。如果使用夹爪执行简单抓取任务,通过堆数据,再结合当下强化学习的范式,确实能提高准确率。
但如果操作对象本身造型复杂多变,场景也处于动态变化中,需要模型有足够泛化能力,问题就会凸显。根据我们了解,当物品或场景发生微调整之后,原先训练好的模型准确率可能会从训练集的 90% 准确率降低到 60% - 70%。要弥补这个性能下降,可能需要让模型训练更充分,将有变化的情况都纳入训练数据中,靠堆数据量来解决。
奇绩:深度学习路线面临的问题,能否通过模型架构或训练方式的创新来解决?
任化龙:可以,模型本来是逐代进化的。最早的强化学习也是参考人体的巴普洛夫经典条件反射,后来出现了很多变体,如 Temporal Difference(时序差分)方法,借鉴了人脑里多巴胺投射系统的调节过程,建模的颗粒度更细,对问题的分析也更深刻。
另外,过去强化学习需要对不同的状态进行有限穷举,或者用规则定义策略。但随着深度学习的引入,用神经网络进行表征,不需要再对每种状态穷举,也不需要写死规则。再往后又出现了一些更新的算法,在 Credit Assignment 策略上更有效,约束条件设计也更合理。随着这些模型越来越好,确实能提升抓取或操作类任务的性能。但即便如此,还是有些问题克服不了,需要类脑计算来提供新的解决方案。
奇绩:相比深度学习,类脑计算有什么优势?
任化龙:首先,类脑计算对数据量的需求相对较低,少量数据就能快速泛化,并且能兼容多种数据类型。与深度学习通常要求绝对标签式数据不同,类脑计算能处理相对标签数据,例如关于一个矿泉水瓶的提问可以从主体、材质、用途等多个角度得出不同答案。这对需要灵活应对不同场景的机器人来说很重要。
其次,类脑计算的学习速度非常快,能实时在线学习,并且能通过可塑性机制,像人类大脑一样,具备动态存储和回放机制,可以在短时间内积累并整合新旧知识,节省了大量数据和存储带宽。
在算力上,深度学习通常采用梯度下降训练方法,本质上是基于数学中求偏微分的过程,训练周期漫长。尽管有一些优化方法,但仍然是一种试错搜索的算法,整体训练开销仍非常大。而类脑计算利用神经可塑性来进行学习,通过神经元间的突触可塑性机制,能在神经元层面上进行高度局部化的计算。当需要调整时,只会改变与当前神经元直接相关的局部区域,因此训练成本相对较低,硬件开销也较小。一般只需几块显卡就能完成,可以极大节省算力资源。
奇绩:与深度学习路线相比,类脑计算的鲁棒性怎么样?
任化龙:这一点需辩证看待。在传统视觉识别任务中,类脑计算在物体形状、位置、光线等发生微变化时,确实具有较好的识别能力。但对于要求绝对一致、高度重复的任务,深度学习或强化训练得到的算法,其重复一致性可能更好、更具可预测性。如果场景和任务固定,使用类脑计算可能反而“杀鸡用牛刀”。
奇绩:有上述优势的情况下,类脑计算在具身智能领域的发展为什么仍较缓慢?
任化龙:类脑计算前期需要对模型进行深入的研究,对硬件的适配性也要做很多工作,两个都打透了才能开始训练。它的发展周期会呈现先慢后快的节奏。
但一旦准备充分,类脑计算并不需要海量的虚拟仿真或合成数据,当然类脑计算也可以兼容和沿用这些数据,在仿真环境里面先进行一些预训练。但类脑计算最大的魅力在于,可以让具身机器人直接在真实环境中成长,像人类一样在试错过程中不断学习。这样的系统和真实的物理硬件之间适配性会更好。
奇绩:具体而言,类脑计算的发展目前面临哪些挑战?
任化龙:一是对研究人员和从业者要求极高,不仅要精通深度学习、经典人工智能和计算机领域的概念,还要系统学习神经科学和认知科学,相当于掌握两个大专业的博士知识。这也是该行业发展缓慢的原因,并非有论文、有数据就可以找算力开展研究,而是需要花大量时间学透不同学科,领悟底层逻辑。
二是需要产业协同发展。比如,现有摄像头无法充分发挥类脑视觉的特性。这要求我们和产业界开展合作,开发新的摄像头技术或视网膜形态的器件。我们提供类脑计算、对神经系统的理解,对方负责光感知捕获、传输和模拟量运算方面技术。
高性能灵巧手:
与模型、硬件的适配挑战与仿生路径探索
奇绩:之前提到模型与真实物理硬件的适配性,现阶段灵巧手与模型的适配难点在哪?
任化龙:现在高性能灵巧手主要朝五指型发展,这样可以满足更复杂的操作需求。
但问题在于,一方面现阶段强化学习在仿真环境中使用低自由度夹爪训练的模型很难兼容、控制高自由度灵巧手;另一方面,当手发展到一定阶段需要采用柔性皮肤时,当前的仿真环境难以精确模拟柔性、弹性以及摩擦力等物理现象。
这也是为什么现阶段,基于刚性肢体模拟的摩擦力、弹性力等数据训练的模型迁移到真实机器人上差距不算大,但一旦换为高自由度、五指型,甚至皮肤可形变的高性能灵巧手,就很难适配。这个缺口在短时间内很难弥补。
奇绩:从灵巧手与其他硬件(如机械臂、本体)适配的角度来看,有哪些具体挑战?
任化龙:从客户角度来讲,很多工业客户、具身厂商及人形整机厂希望我们能将手与机械臂集成,甚至有的要求集成上半身或带底盘交付,以便其二次集成时有参考依据。所以我们会和专业机械臂厂商、底盘厂商合作,分享我们对机械臂的理解,帮助其提升产品质量,增强与灵巧手的适配性。
但的确我们在之前的合作过程中遇到了不少问题。比如很多人形或具身厂商的机器人,胳膊设计得很羸弱,末端直接安装一个简单的 6 自由度手,实际功能有限,可以捏矿泉水瓶或纸杯,但真要落地在工业尤其是重工业,难以满足对手上力量大的要求。我们对产品的要求是手平举能拿起 10 公斤的物体。所以在落地上,我们联系了上游专门做机械臂的厂商,尽量说服他们开始储备这类大负载机械臂。
奇绩:除了与下游厂商的适配,灵巧手在关键零部件上是否也存在挑战?
任化龙:比如,仿生程度较高的灵巧手,其触觉传感器在材料选择、工作原理、工艺可靠性、结构设计等方面都需要进行系统性优化。
我们最初考察了很多触觉传感器厂商,大多数产品的原理与类脑计算的兼容性较差,或在成本和工艺可靠性方面存在问题。实际上,许多厂商和大学科研机构关于触觉传感器的理解存在几个普遍误区——第一是认为电子皮肤要测量力;第二是,认为在测力基础上还要测三维力,包含法向力和两个切向力;第三,为了保证皮肤测力可以解耦出三维的,像笛卡尔坐标系的体系,将触觉传感器做成平面式,加一层薄薄的硬性胶层。
这种传感器适合与物体发生轻度刚性接触,具有一定的柔性缓冲,通常用于工业夹爪,仅有两根手指。然而,若要将此类技术适配到高性能灵巧手上会撞到天花板。
奇绩:怎么理解“这类平面式触觉传感器会撞上灵巧手发展的天花板”?
任化龙:从仿生的角度,为了执行复杂操作任务,灵巧手需要做成复杂曲面,能深度凹陷且非常柔软。其结构类似于人体皮肤,包含浅层和深层神经末梢。这两类神经末梢的空间排布方式也并非简单的侧法向和切向 90 度正交,排布方向有一定讲究。同时,还得解决与灵巧手的适配性,灵巧手的结构造型复杂,皮肤的设计也不能随意。这些对触觉传感器厂商而言是很大的挑战。所以这也能解释他们为何先从简单形式的产品做起,比如服装、运动纺织品、睡眠记忆枕头、可穿戴设备等。
奇绩:除触觉传感器,还有哪些关键部件也需要有所突破?
任化龙:比如,放置在关节上的六维传感器(三轴力加三轴力矩)。现有技术路线下,这类传感器普遍尺寸过大,解耦方式也有问题。其通常要求传感器的线性度需要非常好,如根据某个方向的力输出某个方向的电信号,二者之间需要呈现非常干净的线性关系(y=kx)。另外,还要求同一批次生产的传感器之间,参数和工艺保持高度一致。这就导致厂商在初期很难实现大规模量产,只能将前期的研发和生产成本分摊到客户身上,售价动辄上千元起。
实际从仿生角度,他们可以不用将六个轴刚好解耦成“3 + 3”的形式。因为人体本身不使用笛卡尔坐标系,不用严格要求坐标系各轴之间呈 90 度正交,这就能降低生产工艺要求。同时,人体的绝大多数神经元输入输出关系是非线性的,只要保证单调性即可。另外,人体的神经元、细胞之间存在差异,没有必要保持严格的品控一致性,只要在一定范围内保持大致一致就行。如果厂商用这些思维重新定义产品,价格可能会大幅下降。
奇绩:从灵巧手产业链的角度看,未来还有哪些值得深入探索的方向?
任化龙:执行器、仿生肌肉都值得开放探索。像仿生肌肉现在有很多不同技术路线,但很多方案没有意识到需要在肌肉纤维或最小的肌肉单位上安装张力传感器。其实这很有必要,能为机器人未来的动作控制性能提供有力保障。
此外,嗅觉、味觉等传感器也具备潜力,虽然我们目前在工业场景中还没有应用。类似下水道危险气体检测的场景可能需要非常灵敏的嗅觉传感器。一旦探测到异常,机器人需要迅速行动,比如关闭阀门、进行检测或处理排放问题。至于气体探测是否有必要完全模仿人类的方式,我们目前没有相关经验,所以暂不评价。
目前来看,传统工业设备已能处理单一气体检测,但如果要像人类一样识别复杂气味、理解气味间的相似性和关联性,那就需要从仿生角度重新研究嗅觉和味觉的产生机制,可能会是更好的选择。
场景落地: 需求演进、客户选型标准与未来技术栈思考
奇绩:如何判断不同应用场景下对仿生技术的需求程度?
任化龙:在某些场景中,提升仿生程度能显著提高适配性。比如,在轻工业中,仿生程度拉高的优势相较重工业更为明显。
我们发现,在重工业绝大多数应用场景用相对简单的触觉传感器就能满足需求,因为目标物体通常是大的钢块或铁块,灵巧手只要紧紧抓住就不会掉。而轻工业场景要求灵巧手的触觉非常灵敏。尤其操作布料时,不仅需要精准抓取,还要轻轻解开、抹平,这就要感知布料是否发生滑动,需要仿生的触觉传感器发挥作用,而不是只靠切向力来解决。
此外,轻工业的生产节奏通常较快。以 3C 电子设备装配为例,许多岗位一天可能需要重复操作上千次甚至更多。高频次的操作对工人来说非常不友好,长时间反复动作会对手部造成伤害。还有像叠扑克牌纸盒,传统机械手采用的刚性传动结构以及刚性动力源结构,都导致它的运动节拍很难提高。一旦运动节拍加快,可能会出现系统共振、震颤,或者加速磨损,发热也会比较严重。如果采用类似人体的仿生柔性传动,情况会好很多。
奇绩:设想家庭生活服务场景,对灵巧手的仿生程度是否要求更高?
任化龙:无论对灵巧手本身、触觉传感器甚至其他模态的传感器,如视觉、嗅觉、味觉,还是模型算法,生活服务场景都提出了更高要求。因家庭环境复杂多变,任务多样,要求模型通用性极强。我认为这已经超出当下深度学习或大模型能处理的范畴,类脑计算才能真正意义上实现这些场景的通用与泛化。
硬件方面,与工业应用的硬朗设计不同,家庭服务场景的灵巧手需要高度柔顺,以避免与人接触时产生伤害。我们在 2007 就储备了一款 32 自由度灵巧手,25 个主动自由度,7 个被动自由度。在与人体接触时灵巧手能进行自动适应,比如握手、抓握轻小物品时,这些被动自由度都能发挥缓冲和适应作用。
举例来说,我们握手时手掌会向中间收缩。因为无名指和小指的掌骨与腕骨之间有腕掌关节,每个关节至少有三个自由度,其中至少一个自由度能帮助手指向中间收缩。当手自然下垂或与人握手时,这种设计都在悄悄发挥缓冲作用。
此外,人手指的长指关节受到外力时,会发生侧向偏移,被称为环转自由度。在我们日常使用铅笔、毛笔、筷子或勺子等餐具时,手指会在不知不觉中进行微小的侧向调整,以更好地适应这些轻小的物品。
相比之下,目前的工业灵巧手在设计上从某种程度上削减了这些复杂的自由度,简化了手部的灵活性。
奇绩:从你的角度看,工业客户对灵巧手的自由度有什么要求?
任化龙:至少要达到人手的水平。我们的灵巧手有 25 个全主动自由度。在肉眼可见的将来,大家会认为 25 个自由度是最低要求,甚至在过一段时间我们本科做的 32 自由度可能又变成了最低要求。实际上,人手的自由度数量可能远超过 35 个。
因为实际场景中的工具和物品都是按人手设计的,如果灵巧手的自由度达不到人手水平,操作时会遇到困难。即使是采用遥操作拟人方式,也可能无法完成动作。
奇绩:除了自由度,现阶段工业客户在选择灵巧手时,还关注哪些维度?
任化龙:危重行业的客户最关注的核心问题是灵巧手能否解决他们的实际问题。也就是灵巧手必须达到一定的性能,除了高自由度,还包括高握力、高可靠性。如果在露天环境使用,还要求防水防尘。如果涉及井下作业,需要通过安全认证,具备防爆功能。成本并非首要考虑因素。
奇绩:之前提到,灵巧手目前还未大规模上量,近几年你观察到了哪些市场需求的变化?
任化龙:工业客户对新技术的接受在前期比较谨慎。但随着现在柔性转产需求较为普遍,人力成本大幅上升、年轻人进工厂意愿不强,工厂和生产型企业,包括重工业企业,普遍开始拥抱新技术。
目前,企业一般由前沿战略研究中心牵头开展试点项目,前期更注重概念验证(POC),对品控、量产等要求较低,POC 做了之后再逐步打磨可靠性,一点一点放量生产。所以在工业领域,人形机器人或灵巧手目前不太可能立刻进入大规模放量阶段。相对而言,高校科研领域和部分人形厂商会采购一些灵巧手,能有一定销量,但整体规模不大。
奇绩:目前忆海原识的灵巧手已经落地的场景有哪些?
任化龙:以两个重工业的场景为例,这类场景通常对灵巧手的负载力和灵活性有很高要求。
一个应用场景是在特种发动机组装线上,需求一是来源于保密和生产安全要求,二是由于发动机每年设计会迭代,传统自动化工装无法满足柔性转产需求。三是,发动机零件都是复杂曲面,普通工业夹爪无法完成任务。同时,发动机零件加上工具至少有 7 公斤。
另一个正在推进的一个项目场景中,客户要求操作的对象造型复杂,上面有很多需要抓握、悬挂、推拉的位置,都是按照人手形状设计的。如果手的灵活性不够,根本无法操作。而且这个场景 SKU 品类繁多,有 100 多种非标品,每年还会有 1~2 种新品推出,所以也需要柔性适配。此外,这个场景还存在一定的危险性,工作环境非常恶劣。
奇绩:考虑到落地应用需求,在灵巧手的设计上,有哪些经常被忽略但对负载、自由度等很重要的细节?
任化龙:真正要在工业场景要能落地,需做好关键位置的设计。
比如经常容易被忽略的是手指间关节的设计。大家容易将相邻的关节耦合在一起,这样会减少自由度,带来很多问题。因为这两个关节总是联动。例如,拿手机或电脑时,中指弯曲约 90 度,而末端关节几乎伸直。如果将这两个关节耦合在一起,就会变成固定角度的“勾型”动作,抓握稳定性会大大降低。人在自然抓握时,实际上中指约弯曲 60 度,无名指和小指则需要反向弯曲 10 到 20 度,才能确保稳稳地抓住物品,保证手指末端与物体表面接触良好。要实现这一点,设计时需要充分考虑每个关节的运动范围和自由度。
另一个常常被忽视的问题是腕掌关节的作用。该关节对于实现抓握球类物体或其他复杂曲面物体(如女生的化妆品)至关重要。即便不设计这些关节,至少要保持腕掌关节的自由度。此外,腕掌关节还有另一个重要功能——对指动作。这是人手的独特能力,通过拇指与小指和无名指的对指,能实现更加精细的抓握。相比之下,猴子的手就无法完成这样的动作,因为它们的手掌是平掌,缺乏腕掌关节,只能抓取类似树枝等简单物体。
奇绩:如果从整个机器人产业看,未来可能会发生哪些更大的技术栈整体变化或颠覆性变化?
任化龙:就目前大家为人形机器人储备的技术方案而言,从零部件到算法再到整机集成构型,在未来 3 到 5 年内,很可能都会被新的路线挑战。
比如,现在很多机器人采用刚性传动,行走时震动大,稳定性差。要做好人形机器人,需要从机构设计和仿生学角度深入研究——为什么人体要长这样?为什么人体关节的摩擦系数低至 0.002,比常用的自润滑材料低一个数量级?为什么人体的关节和肌肉能够快速吸收缓冲?人体运动时是怎么保持平衡的?未来,新型材料、机构设计、执行元件、传感器和算法的变革,可能会使人形机器人发生巨大改变。