从AI的爆火,到具身智能的走红,再到今年CES上,老黄以“美国队长”的形象高举人形机器人,仿佛“机器人养老”和“机器人做家务”的时代即将到来。
但现实很快给了这场幻想一记耳光。就在不久前举行的全球首届人形机器人半程马拉松上,机器人连完成“持续行走”这一通用化的第一步都困难重重。理想与现实的落差让大众开始质疑:我们距离第一款真正的通用机器人还有多远?什么路径才能使我们更接近“通用”的目标?
在腾讯科技《具身之路》系列直播第二期中,腾讯科技邀请维他动力联合创始人赵哲伦,“九只机器狗”主人、零零后CEO、硬件工程师张振尧,以及前STARY电动滑板品牌创始人&CEO陈正翔,探讨具身智能的产品化起点以及实现通用机器人的有效路径。其中,维他动力联合创始人赵哲伦从产业化与商业化的角度,分享了他对通用机器人发展的理解与思考。
维他动力(Vita Dynamics)是一家机器人公司,于去年12月在北京成立,其三位创始人分别是地平线前智能驾驶总裁余轶南,和前理想汽车智能驾驶产品总监赵哲伦,前地平线软件平台总架构师宋巍,核心业务是面向C端用户交付机器人产品。
在本期直播中,赵哲伦分享的核心观点如下:
1、通用机器人的发展路径,类似智能手机从PDA到iPhone的十五年演变,必须依赖底层技术成熟与应用场景迭代,不可能一蹴而就。
2、真正能落地的机器人产品,必须抓住原理型技术向工程化技术过渡的临界点,结合场景拆分移动与操作能力,优先实现自然交互。
3、机器人产品交付要优先从简单、容错率高的任务切入,沿着“低复杂度、低风险”到“高复杂度、高风险”的路径渐进扩展,逐步验证PMF并扩大应用边界。
以下为赵哲伦的观点整理:
要走向通用,先交付产品
我其实特别想问大家一个问题:机器人实现“通用”需要多少年?是5年内?10年内?还是10年以上?此外,未来的“通用机器人”是否一定是人形?
我们创业、做产品落地,必须面对的现实问题是——到底能不能做出真正有用的产品。所以我也经常会问自己,什么叫“通用”?为什么说人形机器人“通用”?是因为它“像人”,可以适配很多环境吗?我们现在身边有什么真正通用的东西?手机、电脑,或者人本身?
我觉得手机可能是一个非常典型的通用产品。它是一个“通用信息终端”,我们所有的信息交互、内容获取、数据接收都可以通过它来完成。它之所以长成现在这样,是因为它刚好最适合被人用手握住,也方便放进口袋。这个设计跟今天大家看待人形机器人的逻辑很像:因为它是服务人的,所以要“像人”。
说到手机,我们都知道2007年iPhone发布后,手机形态基本定型。但如果我们往前看,其实早在1992年,苹果就发布了第一款PDA产品“牛顿”,虽然不是乔布斯主导的。后来PDA真正做得比较好的是美国的Palm公司。当时北美的PC普及率已经上来了,所以自然有人想:“能不能把电脑放进兜里?”这其实就是“掌上电脑”或者“通用信息终端”的原始构想。但这个想法真正落地,花了15年时间。
当时的PDA很多技术条件都还不成熟:屏幕是黑白的,没有好的显示能力;电阻触控笔,没有电容屏;装不了相机,拍不了照;没有内容生产能力;存储能力也差;续航也不行。所以,这个“通用终端”最后能成型,是因为技术一步步积累上来的。
这15年里发生了什么?通信技术从1G、2G慢慢发展到3G,手机硬件开始能支持触控、能装相机;随身听(比如Walkman)推动了电池和存储的发展;掌机游戏(从GameBoy到PSP)推动了显示与计算的发展。最终是这些领域的进步汇聚到一个时点,也正好有一个像乔布斯这样理解人文与科技的人,把它们整合在一起,才出现了iPhone这个真正通用的信息终端。
我觉得,今天的机器人一定也会走到那个终点,但过程中会先出现大量垂类的、有价值的中间产品。每一代都可能是很优秀的产品,服务于不同的场景。
我一直挺认同Steve Jobs那句名言:“Real artists ship”,真正的创造者是要把产品做出来的。而现在很流行的那句“先做个垃圾出来,再迭代”,其实也挺有道理。你先得“上路”,才能不断迭代、打磨。
前几天我刷到一个小红书的海报,说的是产品迭代路径:不是一开始就做出一辆完整的车,而是先从滑板车做起,逐步进化。这个思路我很认同。对我们这类C端机器人公司来说,特别核心的一件事就是“沿途下蛋”。
从我们过去5到10年做自动驾驶的经验来看,像L2级的高速NOA、城市NOA等,很多都是随着芯片能力、数据量、算法能力的发展,逐步实现的。中间每一个阶段都“下蛋”,产生了具体价值,也积累了商业闭环所需的能力。这是一个现实的过程。
所以我并不认为短期内能一下子做出一个完全通用的机器人,这是不现实的。那我们怎么去选择机器人该具备什么能力?我觉得最底层可以拆成三个:
第一,自然交互;
第二,自主移动;
第三,自主操作。
这三项能力的组合和不断增强,是具身智能真正产生价值的基础。未来的路径,肯定也是在这些基础能力的持续演进中,一步步接近通用。
走向通用的有效路径是什么?
我们心里一直有个明确的划分,就是技术大体可以分成两类:一类是“原理型技术”,另一类是“工程化技术”。
其实大家也都很清楚,原理型技术更多是科研热点,它的目标可能是实现0到1的突破——哪怕成功率只有1%、2%,只要能跑通一次,在科研层面就算是完成了任务。
但如果我们要真正把产品交付到用户手里,那就需要的是工程化技术。这种技术的要求是,你得把成功率从90%做到99.999%,后面可能还要多几个9。因为一旦你要向用户交付某个具体价值,它的出错率就必须足够低,才有真正的商业意义,这是一个非常核心的差别。
那今天我们怎么看这个事?如果把机器人拆成几个关键模块,我们认为像四足和夹爪这些技术,其实已经到了可以从原理型向工程化过渡的阶段,是有机会推进的。而像两足行走和灵巧手,目前还更多停留在实验室阶段,相对不那么成熟。
举几个例子,其实有些领域已经从原理阶段向工程阶段过渡了,比如大模型驱动的自然语言交流。再比如我熟悉的城市智能驾驶,还有现在的大模型应用如Chatbot——这些东西已经开始进入大规模落地,比如高速智驾,现在已经成为十几万级别车辆的标配。这些AI能力已经实际用到了用户端,已经从科研走向了应用。
我们在“从0到1”的创业过程中,选择的策略是:从那些原理型技术正好过渡到工程化的“临界点”上,去做落地,这是我们做产品的基本逻辑。
而在落地场景上,我们一开始就把场景分为两类:一类是outdoor,即自然环境;另一类是indoor,也就是人类构建的空间。
说到这里,我得提一句:我以前是Elon Musk的铁粉,十年前我专门飞到美国参加了Cybertruck的发布会。
Elon一直要将机器人要做成“人形”。
但我现在也开始有一些新的思考。比如说,我们今天讨论人形机器人,很多逻辑其实都是基于“人所构建的世界”,我们的大部分生活空间,比如桌子高度、椅子尺寸、橱柜层级,这些都是基于人的臂展和腿长来设计的,所以人形机器人在室内环境中是天然适配的。
但一旦离开建筑,进入户外的自然环境,人形反而会失去一些优势。人类从四足到直立,是一个不断丧失户外生存能力的过程。在自然环境中,机器人如果具备四足、全地形移动能力,其实更有优势。
所以我们在找场景的时候,也在拆解能力的分布——outdoor更看重的是自主移动的能力,而indoor更依赖的是自主操作的能力。这是一个天然分化出来的逻辑,比如说在室内,大多数情况下轮子就能解决问题。如果不是那种一会上楼、一下下楼、一会擦桌子、一会送外卖的场景,其实轮式机器人已经足够应对。相对来说,移动的刚需没有那么高。
另外一个很关键的点是自然交互。无论在哪种场景,自然交互一定是机器人最核心的交互方式。每一代爆品产品的出现,往往伴随着交互界面的变革。比如乔布斯定义了GUI(图形界面),今天机器人最理想的交互方式,一定是AI native的自然语言交互(NUI)。
我们现在在做的四足原型机,第一项开发能力就是“跟随”,第二项就是“自然语言交互”。因为当你发现机器人能跟着你走的时候,你天然不想再掏手机控制它,也不想拿遥控器,你只想直接对它说:“你靠近一点”或者“你离我远一点”。这是人对智能的天然期望。
从我们的角度来看,室外场景更需要的是负重、自主移动、全地形能力;而室内场景更需要的是操作能力,比如做家务。做家务其实并不需要四足机器人;而如果你要外出跑腿,那手臂反而没那么必要。我们现在的策略,是把这两个能力栈分开来做,有选择地聚焦,既保证一定的通用性,又能降低商业化路径中的复杂度和成本。
机器人产品交付,优先完成简单低风险任务
接下来讲讲机器人产品交付的优先级排序。现实里,我们家中存在各种任务,比如清洁、整理、收纳,而除了扫地机器人搞定的地面清洁,其他大多数任务都还没有被机器人真正解决。
我们可以用一个二维坐标来理解任务的分布:横轴是任务的复杂程度,纵轴是出错的容忍度。举个例子,把晾衣架上的衣服拿下来丢到沙发上,这个任务不算复杂,出错成本也低,就算掉地上了也没关系;但你要让机器人把衣服叠好,就非常难,因为涉及复杂的形态识别与操作规划。
如果机器人是在厨房拿一把刀,或者拿一个玻璃杯,那就完全不同了——出错一次可能带来严重损失。所以我们更倾向于优先解决“左下角”的任务,也就是简单且容错率高的任务,通过这些入口切入用户生活,再慢慢拓展向“右上角”的高复杂、高风险任务。
这是我们长期做自动驾驶带来的思考路径:别一下子冲顶,要“从左下往右上延伸”。科研挑战当然可以直接对标右上角,但商业化一定得从最具性价比、最容易验证PMF的点切入。
比如在有娃的家庭里,玩具经常被扔得到处都是,那是不是可以让机器人帮忙整理?比如沙发上堆了一堆衣服,是不是能帮忙做基本收纳?这些问题比“帮你在厨房切菜”要好解决得多。这就是一个典型的渐进路径。
本文来自微信公众号“腾讯科技”,作者:小燕,36氪经授权发布。