云启资本 2024年10月28日
投资、技术、商业化,「AI+机器人」的风吹向哪? | 云启Attent!on ·具身智能场回顾
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章围绕具身智能,探讨了其投研动态、前沿研究、技术破局、商业化等关键问题。涉及具身智能的新变化、关键拐点、数据选择、商业模式等内容,还包括在不同场景下的应用和发展方向的讨论。

具身智能投资热潮受算力水平和硬件水平提升的推动,其最大区别在于泛化性,弱化了对场景的要求,更多考虑机器人本身的学习能力。

在竞争格局方面,硬件公司可能会如手机、汽车发展历程,最终只有少数头部能胜出。当前阶段系统层面软硬件协同重要,中期关键卡点在数据,长期场景、数据、系统能力决定终局。

过去一年具身智能生态繁荣,除本体公司外,数据、中间层的创业公司增多。空间智能对具身智能至关重要,技术路径选择要根据具体应用和场景对泛化性的要求来决定。

具身智能的仿真数据可帮助机器人学难技能,但泛化性能有局限,应结合真实数据训练。传感器迭代方向包括视觉理解3D、触觉提升等,多模态感知是重要研究方向。

具身智能商业化需考虑产品落地场景,应先用不同领域和行业数据训练以实现泛化性,再针对特定场景学习。数据收集方式很重要,要结合自身资源考虑商业化场景。

原创 拥抱具身智能的 2024-08-28 16:02 北京

开启可触碰的未来


AI给机器人行业带来哪些新变化?具身智能的关键拐点还有多远?真实数据vs仿真数据如何选择?具身智能的商业模式?


8月20日,世界机器人大会召开前夕,云启「Attent!on」AGI+沙龙·具身智能专场在北京举办。我们联合源自清华大学电子工程系的早期投资机构无限基金SEEFund ,在北京中关村创业大街科技服务有限公司、亚马逊云科技协作支持下,与近百位深耕具身智能行业的伙伴热议关乎具身行业发展的真问题。


我们节选了沙龙现场部分精华内容与你分享,希望激发更多宝贵的交流和创新火花。

➤➤➤围绕具身智能的投研动态、前沿研究、技术破局、商业化等关键问题,到场嘉宾在主题演讲和三场圆桌讨论中展开深入交流。


值得一提的是,参与分享的嘉宾覆盖投资、海内外前沿研究机构、以及算力、电机、机械臂、灵巧手、人形机器人等具身智能产业链上下游等生态多领域。嘉宾们从不同的视角解答大家共同关心的行业问题,提供了一张尽可能完整的认知图谱。


部分嘉宾来自

云启资本、无限基金SEE Fund、华创资本
亚马逊云科技、清华大学智能产业研究院、北京通用人工智能研究院

星尘智能、睿尔曼智能、银河通用、松延动力、兆威机电

滑动查看更多现场实况




「投资人对话:

AI+机器人有多热?」


AI+机器人,关键质变是什么?
哪些场景能跑通?


陈昱 云启资本合伙人

云启最早在2016年投资机器人,当时中国人口政策有重大调整,预示着老龄化、少子化会成为人口结构的新特征,用工成本越来越高也是可以确定的趋势。能不能用机器人补充劳动力,完成重复或高危的工作?我们当时抱着这个朴素想法来看这个领域,最早投资了自动驾驶,后面陆续投了一些机器人项目。投资标准主要有三个:有用、市场大、便宜。但当时技术受限,比如算力、传感器等和今天相差很多,所以当时投的机器人大多功能比较专一。


随着算力水平、硬件水平显著提升,引发了这一波具身智能投资热潮。和上一波机器人相比具身智能最大的区别在于泛化性。比如一个机器人把一个动作学好之后,换100个场景都能用,或者在同一个环境下,可以快速学习并执行100个动作。这也被业内认为是物理世界通往AGI的路径。基于泛化性特征,这一代机器人也弱化了对场景的要求。之前我们投机器人要把它能替代哪个行业或工种想得很清楚,现在则更多考虑的是机器人本身的学习能力。


赵瑱 无限基金SEE Fund合伙人

SEE Fund 从去年上半年开始看具身智能方向,并在人形机器人、具身智能相关领域都有布局。回到行业逻辑,大模型代表的一个技术范式是高质量数据和海量数据驱动,有可能沿着 scaling law让很多场景里的智能涌现出来。那在机器人领域是不是能复现同样的逻辑?我们是沿着这样一个思路去找项目,同时也相信这一代的创业团队能够沿着这样的逻辑做出创新和研发。


关于落地场景,长期来看一定要同时实现业务流闭环、商业价值闭环、数据和基础研发闭环。中期来看,个人比较看好介于完全开放式之间和高度可控式的场景,这样的场景下问题被降维、数据更加精细,同时能够基于现有算法迭代机器人完成复杂任务的能力。


熊伟铭 华创资本创始合伙人

2017年时候,我们投的机器人公司更类似分散式机器人,眼睛在这里、手臂在那里,并没有实现“具身智能”。这一波的具身智能热潮肯定还是得益于大模型的闯,2022年以来大模型的进展陡然加速,它给NLP领域带来和BERT、Transformer出来时截然不同的冲击力,真正把NLP带向了质变时刻。如何把大模型压进这个Robotics的应用里面?我们的思路是,就算一步到不了具身,可以先结合某个特定的商业场景来做。比如把海外有所欠缺、做得不够好的场景拿到国内来做。现在我们也在沿着这个思路去找(项目)


竞争格局前瞻:

大鱼吃小鱼or全面竞争?


熊伟铭 华创资本创始合伙人

回看手机、汽车的发展历程, 在“放水”的过程中会有大量创业机会,但最终只有最头部的人才和最头部的资金可能这场仗从头到尾打下去。我觉得硬件公司可能会类似这种形式发展。目前在这个领域可能大家真正的竞争对手还没有出现,最重要的是把商业化的路趟清楚,越快越好地找到自己的商业模式。虽然我们强调具身智能的泛化性,但是找到能算的过账来的场景,一步一步把商业化的路打开很重要。


赵瑱 无限基金SEE Fund合伙人

现在都处在探索期,长期来看胜出玩家不会太多。当前阶段,系统层面软硬件的协同的非常重要。期来看,关键卡点在数据,谁能够获取更多更好的数据,谁就有可能抓住机会。再沿着上下游,不管是硬件还是应用去做拓展,就有可能占据有利身位。另外,从应用场景来看, B端、C端对能力维度的要求可能会有大的分野。C端如果进入家庭或者提供情绪价值,对智能性和泛化地执行任务的要求是非常高的,天然和B端有很大的差异。


长期来看,在scaling law能够在相当长一段时间内把智能性推到极好效果的底层假设下,景、数据、系统能力是决定终局的关键。


陈昱 云启资本合伙人

现在成本还是高企不下,所以短期内具身智能不会有太多toC的实质应用,大家现在更多在探索工厂自动化里面的应用。比如做柔性生产,一个机器人去完成不同工位的操作。往这个方向做的好处是有用户陪你去打磨产品和技术,这是一种造血方式,让你能够活下去,活到有一天因为技术发展导致成本急速下降、进而能够把它推向更广阔的市场空间的时候。创业,活下去是最重要的。既要找到陪伴你走下去的投资人,给你提供弹药,也要找到一个好的客户群体,陪你打磨产品、积累技术。



「产研碰撞:
空间与智能,如何照进现实?」


过去一年具身智能最大的拐点何在?

肖培庆 亚马逊云科技初创资深解决方案架构

过去一年,我们观察到具身智能的生态越来越繁荣了。除了做具身本体的公司之外,数据、中间层都有越来越多的创业公司在做了。比如数据方面的仿真模拟方向和人工VR设备产生数据方向,中间层辅助机器人运维操作和提供SDK的PaSS平台、Develop平台等等。


方科 星尘智能联合创始人、CFO

过去一年,大模型已经从最开始的语言模型进阶到了多模态,最近半年美国涌现了空间模型。空间智能或空间模型对于具身智能是非常关键的技术。


远期来看,具身其实是空间模型与整个世界交流的载体。落到近期,具身智能是空间智能向实体延伸收集数据的一个重要手段,也是未来三年具身研究方向上的重要课题。


黄思远 北京通研院通用视觉实验室负责人

我自己的研究方向是三维场景理解和具身智能,过去很大的一个趋势是关节、电机等零部件的成熟,以及机器人硬件的成熟和稳定让我们距离做出通用机器人的梦想越来越近。但其实这些硬件的最大潜力现在还远远没有发挥出来。


如何利用模型让机器人本体更加丝滑地运动,以及能否用统一的模型让不同的本体操作类似任务,这都是还需要解决的问题。


技术路径选择及与破局瓶颈

黄思远 北京通研院通用视觉实验室负责人

个人认为,技术路径的选择并不存在黄金法则,而是要根据所选具体应用和场景对泛化性的要求,来选择不同的算法。我经常会用两个轴来进行评估,一个轴是泛化性,另一个轴是任务对灵巧程度的要求。这两个轴基本决定算法在现在这个阶段需要怎么设计。举个例子,现在有一些大模型接各种不同小模型的算法设计,这在解决特定应用下的需求是没有问题的,但从技术发展路径来说这更像现阶段的无奈之举,我认为之后这种组合式的算法会被更基础的模型所替代。


第二个观点关于仿真数据和真实数据。从机器人的动作库来看,仿真数据能够帮助机器人学到一些比较难的技能,这些技能很难从数据中获得。但仿真环境下训练出来的模型在泛化性能上其实还是会有挺大的局限性,所以我最终想要promote的方向还是用更真实的数据结合仿真数据进行具身智能训练。


赵昊 清华大学智能产业研究院 助理教授

我分享一下仿真数据和真实数据。对于我们这波学者来说,一个共识是数据很重要,数据多的产品一定势必别人的好。大模型时代,我认为没有超出这个范式。大家还是在集更好的数据、用更大的模型去训练。具身智能的仿真数据最难的一点是需要几何关系,所以做三维重建和仿真在这个时代变得更加重要。


前一阵有篇论文说纯仿真数据会让大语言模型“变傻”,这在我看来也是clear的。所有仿真数据去训练,肯定要有真实数据trigger它,二者要有乘法关系。这样出来的数据才是能解决问题的。所以真实数据和仿真数据必须要结合


肖培庆 亚马逊云科技初创资深解决方案架构

现在的VLA肯定还不是最终形态,因为数据还不够。可以类比自动驾驶,当前处于最早期的具身智能形态。特斯拉其实就想做端到端,但我觉得它做的其实也算是VLA模型。因为它的机制是通过摄像头看到东西,再通过中间各种神经网络,做出踩油门、控制方向、刹车等输出动作。现在FSD效果已经非常好了,因为特斯拉有很多数据,每一个车主都在为它免费提供数据。


但具身机器人还无法获取这么多真实数据,这是仿真数据比较好的原因。而且仿真数据也有Scaling Law,在simulation环境中仿真次数越多,最后迁移到真实环境里的成功率越高。


传感器的迭代方向

黄思远 北京通研院通用视觉实验室负责人

从视觉来讲,我认为理解3D是最重要的。既可以通过多视角去理解3D,也可以通过深度相机、雷达相机去理解3D,这是各个厂商各自的路径选择。触觉提升的潜力也很大,目前机器人本体去做一些非常难的动作都需要精确的力的传感以及力控帮我们去做。现在我们看到一些产品的电机做得很不错。


现在我们关注的一个方向是,是不是可以去构造一个非常通俗化、能够在不同的产业里面用到的底层的传感器,用这种传感器来帮助我们未来在更通用的人形机器人上,去构造更强大的感知系统。


方科 星尘智能联合创始人、CFO

星尘做机器人的时候非常注重数据的多模态。除了视觉,我们也非常关注力觉和触觉,包括设计传动结构的时候非常考虑力和触觉在整个场景中的应用。我很认同一个观点,3D视觉在理解真实物理世界上存在局限性。很多操作中,视觉只起到引导作用。所以我们思考如何让机器人更好理解物理世界的一个底层逻辑是:要像人。人其实是通过视觉、力觉、触觉综合认知世界的。所以多模态的感知对未来机器人的一个重要研究方向。


在传感器设计上,要考虑它跟整个控制回环的结合。比如触觉方面,除了敏感度以外,我们还非常在意触觉的频率,如果触觉的频率跟控制回环不匹配的话,会存在一个情况——当触觉已经传导的时候,东西已经掉了。



「上下游畅言:

具身智能商业化还有多远?」


落地选择:

泛化场景or特定场景?

张直政 银河通用合伙人

需要拆成两个层次考虑。第一,产品是否先落到一个特定场景?第二,如果要在这个特定场景实现高产品能力,是否只针对这个场景进行学习?


关于第一个问题,我们的答案是肯定的。但要在特定场景中实现高产品能力,只学习这个场景的数据并不能达到目的。其实 AI 模型训练过程中,要想实现真正的泛化性,其 foundation 模型达到一定的通用性是前提,而后它才可能举一反三、实现闭环。类比我们人类学习,需要先进行通识教育,再专家教育。具身智能模型同理,如果要在一个场景里面 handle 各种复杂的状态、各种非结构化的场景,就绝不能只用单一场景数据来训练。


总结来说,我们希望打造的机器人应该是通识教育之后进一步完成特定领域知识学习的“专家”,可以在一个领域代替某种职业、处理专业任务。而要追求真正的泛化和通用,在构建它的阶段,我们要用不同领域和行业的数据来训练。 



张世璞 松延动力联合创始人、CEO

数据层面,在新时代的scaling law下,如何有效地收取数据非常重要。如果以数据数量为横轴、数据可获取性为纵轴画一张图,我们会看到,既有特斯拉、谷歌等“玩家”沿着横轴1:1地采集数据,也有一群科学家先研究interface,不投入这么重的采集成本,沿着纵轴去做采集方案。


但现在看起来大家还要在脑子画得让张图,就是scaling law到底要收敛到什么地方。不同的任务的收敛速度也不一样,这就和创业者想做的商业场景有关。可能大家需要和自身已有的资源结合起来,去考虑什么样的场景容易商业化,这所对应的sacling law收敛速度也不一样。在当前资本环境下,应该找到好的数据收集方式,加速PMF迭代过程。


如何寻找产品PMF场景?

郑随兵 睿尔曼智能创始人、CEO

一个选择点是,机器人在应用的过程中能产生价值,与此同时能顺带手地把数据收集起来。


比如新零售、电力、建筑、汽车,在这些既能产生价值又能锻炼机器人能力的场景中,把数据收集回来,是一种很好的方式。而不是说为了收集数据,去铺大量的Demo,甚至用大量的人力去训练。当然在初期阶段,为了让机器人具备最基本操作能力必不可少。


在具体选择数据的过程中,我认为没有必要追求大而全。类似特斯拉FSD在满足电动汽车应用普及的过程中,先把通用的感知数据、操作数据拿回来,后续再做提升。简而言之,先达到人的基本功能,再去超越人的功能。



陈毅东 兆威机电首席电控专家

灵巧手是我们产品力的延展,我们想真正解决手的“心灵手巧”。即:灵活,轻巧、低噪,可靠、价格亲民。考虑这一点,我们会结合头部客户需求和自身能力深挖该赛道。


从数据来说,赋能产品的重点是把每个细分场景的数据做到尽量精准。能否结合场景打造独一无二的最佳解决方式,这才是商业成功的本质。结合我们自己的行业,各个赛道最终能够剩下来的是专业的人,让专业的人做专业的事。


末端形态:
多功能“瑞士军刀”or可操作多工具的手


郑随兵 睿尔曼智能创始人、CEO

一些特定场景可能对末端执行器的需求只有一个自由度,甚至不需要自由度。所以末端形式是多种多样的。但如果我们想训练的是可以在家庭场景中做各种服务的机器人,那还是能拿多工具的手比较适配总结来说,还是针对不同的需求做不同的产品。


张直政 银河通用合伙人

瑞士军刀虽然通用,集成了各种功能部件,但使用起来并不方便,日常生活中最常用的刀也并不是瑞士军刀。对于具身智能,在当前各种硬件形态或末端执行器都未标准化,行业缺乏数据的前提下,我们还是坚定地认为应该以“先发展类人能力,再发展超人能力”为核心思路,先让机器人像人一样学习如何使用各种工具。有形态尽可能标准化,能力尽可能和人接近,才能高效、快速地积累数据并提高产品水平。


在此基础上,当我们的数据积累达到一定程度,基础模型能力达到一定水平,在有明确需求的情况下我们会考虑瑞士军刀型设计,甚至超越于此,去探索更加具有想象力的机械设计,使机器人的能力实现从“类人”到“超人”。我们认为这是对行业负责的更务实的做法。


陈毅东 兆威机电首席电控专家

开一个脑洞,在不远的未来,随着每一个产业链上中下游的深度融合,我相信能实现人类与具身智能机器人的共生。末端执行器的选择还是依场景而定,和需求相满足的、相匹配的才是合理的。


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

具身智能 投资热潮 技术路径 商业化 数据收集
相关文章