奇绩创坛 04月09日 17:56
AI 前沿:对合成数据及具身智能的观察和思考
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了合成数据、具身智能及AI创业相关内容。光轮智能创始人谢晨认为实现AGI需真实、可交互的数据,合成数据是必经之路,且具身智能领域对其需求更大。文章还涉及光轮智能的发展、数据需求趋势等方面。

🎯实现AGI需要3D视觉真实、物理交互真实、人在环的数据

🚗光轮智能从自动驾驶切入具身领域,合成数据是关键

🤖具身智能对数据的需求特殊,合成数据是必经之路

💡光轮智能认为未来数据赛道赢家需结合技术与运营能力

原创 奇绩创坛 2025-03-18 20:02 北京

与光轮智能 CEO 谢晨聊合成数据、具身智能和 AI 创业

在通用智能掀起的本次变革浪潮中,科学、技术、生产力、发展模式都在发生全面的、根本性的变化。在技术扩散的前沿,创业是驱动创新的路径中最高效的一种。


我们会不定期访谈奇绩创业营加速的年轻创始人们,从他们的视角,去理解技术创业者的世界观、工程实践经验、产品创新尝试和商业场景应用的探索,更重要的是分享他们早期创业过程中的故事和经验。


第二篇「AI前沿」文章,我们与奇绩 2023 年春季创业营优秀校友、奇绩创业导师「光轮智能」的创始人谢晨聊了聊合成数据之于 AGI 的意义,并围绕支撑 AI 数据赛道发展的底层技术、商业逻辑展开了探讨。同时,谢晨也分享了自己关于具身智能的发展现状,及该领域对数据需求的看法。


整理|邱晓雯 俞悦

访谈、编辑|沈筱


实现 AGI,使 AI 真正进入物理世界需要什么样的数据?


在光轮智能创始人谢晨看来,这个问题在硅谷业内最前沿已有标准答案—— 3D 视觉真实的、物理交互真实的、人在环的数据


但是,尽管所需数据的“画像”已足够清晰,对如何高效获取这类数据尚无定论。找到这个问题的最优解,正是谢晨离开 NVIDIA 后创办光轮智能,聚焦合成数据的初衷。从最初服务自动驾驶领域,光轮智能已逐步将业务拓展至具身智能领域,目前已服务 Figure、NVIDIA 和智元机器人等全球领先的具身智能企业。


基于第一性原理,谢晨认为,AI 的学习路径与人类学习过程类似,会由婴幼儿时期的模仿学习逐步过渡到成年后的自我对弈强化学习。而数据的根本目的就是通过“提供这个足够真实的、可交互的物理世界和人的示范”,教会 AI 与真实世界进行有效交互。要实现这一目的,人在环(Human in the Loop)是重要隐含条件。


在谢晨看来,要实现 AI 能力提升,人类示范必不可少。纯粹用 AI 制造数据来服务 AI 能力的无限制提升类似于永动机,不可能实现。具体而言,AI 所需数据的完整拼图,一部分是代表人类示范的真实数据,另一部分则是人类示范(Demonstration)的放大器——合成数据。


这一观点映射到光轮智能的商业逻辑上,表现为卖“真实数据 x 合成数据”,即二者的乘积。合成数据这一放大器背后是仿真、生成式 AI 等技术能力,真实数据背后是和 Scale AI 一样强大的技术运营能力。


谢晨认为,仅凭技术能力成为不了数据供应商,未来 AI 数据赛道的赢家将是一个将技术能力和技术运营能力有机结合的创新型公司。这也是光轮智能的定位,即打造高技术门槛的 Scale AI。而上述思考也是他认为未来所有有成本的数据都将是合成数据的重要原因。


聚焦到具身智能领域,基于对全球领先具身公司的观察,谢晨认为,其核心均是打造 Robotics Foundation Model。和自动驾驶不同,该领域当前还处于“BERT”阶段,对数据的需求主要来自预训练。但他也提到,具身距离抵达类似 GPT-2 的 Scaling Law 阶段可能仅需 1 年。随着模型发展,具身对数据的需求将重复 LLM 从预训练到后训练/评测的演进路线,也将诞生更为庞大的服务 RL(强化学习)的数据需求。而要满足上述所有要求,仿真合成数据是必经之路。


以下是奇绩与谢晨的对话。



数据的终局

用合成数据放大人类示范


奇绩:光轮是奇绩看到的国内最早的合成数据的公司。现在大家对合成数据赛道的认知和你们刚创业时有变化吗?

谢晨:23 年初我和海波创业的时候,合成数据很冷门,大家甚至不知道合成数据是什么。我们的预期是要花三年时间教育市场,没想到这个话题 24 年就起来了。


实际上创业之初选择合成数据不是偶然,而是基于长期在业界的实践和观察,我们积累了关于未来算法训练和数据的认知。我们认为,受算法端到端化和 Scaling Law 驱动,大规模高质量数据的需求将急剧增加。合成数据是扩展数据规模和多样性的最好选择。同时,数据金字塔的层级需求,尤其是具身的预训练数据,只有通过仿真合成数据才能大规模填补。


但需要指出,我认为并不存在单一的纯 AI 合成数据赛道。


奇绩:怎么理解“不存在单一的纯 AI 合成数据赛道”?

谢晨:实际上,在过去有关合成数据的探讨中,一个没有得到足够重视的隐含条件是“ Human in Loop”(人在环)。


大语言模型(LLM)的发展表面上依赖算法能力,但其突破性进展本质上得益于人类专家示范数据,以及示范数据利用率的提升(强化学习)。这比较像人类学习路径,婴幼儿时期依赖模仿学习,成年后多用自我强化学习。


OpenAI 有数千个标注员,Scale AI 有数万个标注员,他们可能是博士、工程师等专家。这些标注员时薪极高。正是由于 AI 模型得到了更优质的人的反馈,才能不断提升。自动驾驶领域,特斯拉的端到端 FSD V12/13,也用到了“五星司机”级别的专家数据。


同样,我认为具身的合成数据也会是“人在环”的,需要基于仿真能力去放大、泛化人类示范数据。我不相信纯粹由 AI 生成的合成数据——从第一性原理来看,它的假设类似于一个数据永动机,不可能实现。


奇绩:从你的角度,数据赛道的核心需求是什么?

谢晨:尽管随着 AI 算法的演进,数据也在随之演进,但从 AGI 的终局看,最终的数据需求始终不变,即 3D 视觉真实的、物理交互真实的、人在环的。 


具体到实践层面,AI 对数据的需求并非纯合成数据,而是需要基于真实物理世界的人的 Insights,经由合成数据去放大。合成数据实际充当了人类示范的放大器。


以自动驾驶领域为例,主机厂已经积累了大量真实数据,预训练数据相对充足,但是在后训练和评测却缺乏相关针对性、高质量的数据,如跨国场景、城区复杂环境、Corner Case、五星司机驾驶数据等。这就需要基于合成数据来放大人的示范。


具身智能更加特殊,与大语言模型和自动驾驶不同,具身的预训练数据极少。目前行业最领先的具身 VLA 模型之一,Pi0 只有 1 万小时的真实遥操作数据。而真实数据采集成本太高,难以规模化采集。同时,相较大语言模型、自动驾驶,具身会用到更大量的 RL。我们认为,在仿真中闭环 RL 最实际可行,也就是,仿真合成数据是具身的必经之路。


奇绩:基于上述洞察,AI 数据赛道的公司应该长什么样?

谢晨:首先,从商业模式的角度,不应该卖放大器(软件),而应该卖数据,做 AGI 时代的卖水人。其次,更具体的,应该卖“真实数据 x 合成数据”的乘积。


真实数据的底层实际上是与高质量人类示范数据有关的技术运营能力。随着行业发展,越来越优秀的人的数据将变得越稀缺,成本也越高。要实现上述目标,关键是高效地管理和协作,用系统化的流程来处理数据和与专家的协作关系,确保获取真实数据的过程精确可控。


而推动合成数据能力的核心则是仿真技术能力,这决定了放大的质量与倍数。只有将高水平专家的示范与强大的仿真数据泛化能力结合起来,才能构建出有竞争力的商业模式。换句话说,需要设计和运转一整套高效的“合成数据自来水管线”,让人和技术形成相互成就的闭环。



合成数据是具身智能必经之路


奇绩:光轮智能最初从自动驾驶领域切入,后续延展到具身,背后的思考逻辑是什么?

谢晨:实际上我创业之初的愿景很明确,就是 Simulation & Synthetic Data for Robotics(机器人的仿真和合成数据)。因此,我们原本做的就不是单一的自动驾驶数据,而是具身的合成数据,只不过自动驾驶是机器人第一个规模化的场景。


其实从 23 年开始我们就布局具身了,当时的问题是没有具身公司,参与这个领域讨论的都是学术界。24 年开始,国际上有几家大的公司做 Robotics Foundation Model。因为有了提前的布局,我们也很幸运在 24 年支持了世界领先的具身公司,包括 Figure。


奇绩:具身所需的合成数据和自动驾驶相比有什么区别?

谢晨:主要有三方面不同。首先,具身要求数据具有跨平台性,Cross-Embodiement。自动驾驶领域,车作为平台,传感器配置很类似,而具身智能领域,有人形、狗、机械臂等不同形态。数据在不同形态间的共享难度大。


其次,具身尤其需要物理交互性,而自动驾驶更多是视觉的数据。除了视觉信息,具身还需要处理触觉、力反馈等多模态数据,这对数据采集和处理提出了更高要求。简单说,数据的种类和信息量要复杂得多,同时数据的获取成本更高。另外,在物理交互性上,目前虽然视觉重建技术能解决一部分问题,但仍无法完整还原物理属性和交互特性。比如,从书架上拿书的动作,所需的力学模型完全不同,这对仿真系统的要求非常高。自动驾驶在数据闭环方面的成功经验,并不一定能完全迁移到具身智能这个更复杂的场景中。


最后,具身会依赖更多的闭环的数据来服务 RL 的训练和评测,而自动驾驶更多是基于开环的视频做大规模预训练和评测。这是两者技术路线和实现难度决定的。


奇绩:自动驾驶和具身领域的数据需求差异,对应的技术能力要求有变化吗?

谢晨:有类似,也有难度和维度的延伸。Robotics Foundation Model 与自动驾驶的 VLA 端到端很像,从我们的技术架构、产品上看,是相对自然的延伸。当然也有一些不同的地方,例如预训练 vs 后训练,物理交互性 vs 视觉,闭环 vs 开环等。自动驾驶主要用 IL,具身智能 IL 和 RL 都用,尤其是 RL 的重要性提升了,因为具身要解决更多更复杂的泛化问题。我们的解决方案是“Real2Sim2Real + Sim Validation”,同时着眼于构建一个持续产生高质量交互数据的生态系统。


从技术能力上讲,我认为,做过自动驾驶合成数据是做好具身合成数据的必要不充分条件。自动驾驶领域对合成数据的要求是高质量、规模化、重视分布。这些都是做具身合成数据的前提,对仿真的工程化能力、运营能力都有很高要求。从自动驾驶到具身,需要有不断归零的心态,和极强的学习能力、执行力。


奇绩:你如何看待具身领域对真实数据和合成数据的需求比例?

谢晨:我认为在具身机器人领域,合成数据的应用空间远超自动驾驶。这两个领域的一个根本区别是,前者依赖的平台——汽车,已存在上百年,并且遍布全球,产生了海量的视频数据。而具身领域的挑战在于,需要同时发明软件和硬件平台,并且基于现有硬件平台的数据量非常有限——目前具身的 Robotics Foundation Model 预训练数据几乎为零,这为我们提供了机会。我认为超过 90%,甚至 99% 的具身数据都将来自合成数据。


奇绩:当前很多企业和地方政府都在建设机器人数据采集工厂,你怎么看待?

谢晨:真实数据采集工厂的存在有其合理性。我认为,这项工作更适合具身硬件公司自己做,因为它们的数据需求和自身硬件参数密切相关。作为第三方数据提供商,会面临很大的硬件平台风险。今天为机械臂或 Mobile Aloha 定制的平台,明天如果换成人形机器人或灵巧手,就需要重新开始。同时,未来哪个具体平台会获得最多的市场采纳也不确定。如此重资产投入的性价比,会随着硬件迭代的加速而逐渐恶化。


另外,建设采集工厂的底层逻辑是,通过集中人力来显著降低采集的边际成本。然而,这个逻辑存在一个问题。从长远来看,采集的边际成本并非主要来源于人工成本,而是新场景的使用成本。目前大家做的桌面抓取这类简单场景,勉强可以覆盖实体工厂,但当需要处理家居、商超、工厂等复杂场景时,实体搭建的场景多样性所带来的物理限制和资金消耗可能会失控。


我的判断是,仿真才是能够真正规模化、低边际成本地打造和使用场景的必经之路。因为它不需要租场地、购置设备或调试硬件,数据的跨平台通用性强,这种扩展性才是支撑产业规模化的核心能力。


当然,仿真中的合成数据也需要有人在环参与,我们正在打造一个上千人的仿真运营团队,致力于构建全球最大的具身数据工厂


奇绩:你如何看待未来具身领域的数据需求趋势?

谢晨:具身智能的核心依然是打造 Robotics Foundation Model。目前,行业领先的模型,比如 Physical Intelligence 的模型,还处于具身领域的“BERT”阶段,属于相对早期的阶段。但根据我对光轮所服务客户的了解,有一个非常振奋的发现——现在国际顶尖的具身公司创始团队,都是由世界顶尖的具身科学家领导。这一点远优于之前 Waymo、Cruise 那一波自动驾驶的创始团队。因此尽管处于 BERT 阶段,我认为很快就会进入到 GPT-2 的 Scaling Law 阶段,可能只需要 1 年。


当前的数据需求,特别是对做 Robotics Foundation Model 的具身公司,主要聚焦于预训练数据。基于真实数据的采集单位成本过高,不适合用于预训练。加之预训练数据的缺口可以类比互联网数据规模,这正是合成数据行业的发展机遇期。


我认为,随着模型的不断发展,未来的具身数据需求将重复 LLM从预训练到后训练/评测的过程。合成数据和仿真数据的需求将只会越来越大。同时,更大的数据需求一定会来自服务具身的 RL。


奇绩:具身领域模型和训练方式存在的不确定性是否会造成数据需求的不确定性?

谢晨:尽管具体的模型架构可能存在一定不确定性,但具身的数据需求应该从第一性原理来理解。本质上,具身未来将部分替代人类,具身产业将与人的产业形成类似的镜像。我认为光轮正在做的就是具身的教育和游戏产业。人的教育和游戏产业有多大,光轮瞄准的产业就有多大。


当然,实现路径会存在一定的不确定性,但仿真需求是确定的。这也是为什么光轮从一开始就瞄准服务全球领先的具身公司的原因,因为我们希望与这些公司共同不断迭代认知,创造出最前沿的落地解决方案。


奇绩:你所畅想的未来具身智能领域的产业格局是怎样的?

谢晨:虽然具身的市场比自动驾驶大,但实现难度也更大。就如之前提到的,具身智能需要同时发明硬件、软件。基于此,具身智能的实现路径也一定不同。在具身领域,我看好四种不同类型的公司——软硬结合的具身智能方案公司,但它们专注于某个垂直领域的需求;硬件平台公司;具身的 Robotics Foundation Model 公司;具身数据公司,也就是光轮聚焦的赛道。



创业感

从解决客户小问题开始做差异化


奇绩:可以看出,你的很多底层逻辑都是从创业之初就确定,这样的思考来源于什么?

谢晨:这得益于我过去多年思考的积累。刚创业时,合成数据确实是一个相对冷门的领域,但正因为它是机会,才只有少数人看到了。我一直坚信人可以通过经验和逻辑来实现价值发现。只要逻辑是有支撑的,是闭环的,即便是反共识的观点,也应该坚持并实践。这个信念不仅帮助我在创业中发现了差异化的机会,也影响了我人生中的其他选择。


拿我自身的经历来说,我本科在北大读物理,当时我是唯一一个在本科阶段去哥伦比亚大学交换一年的学生。之后,我又成为北大物理专业唯一一个直接去读金融博士的人,并且获得了全额奖学金。通常情况下,物理系的学生要么继续读物理或电子工程博士,要么中途转向其他领域,但我选择了直接去金融,这个选择正是来源于我对逻辑和机会的独特理解。


奇绩:为什么要跨界选择做金融呢?毕竟金融是一个竞争比较激烈的领域。

谢晨:如果你不是某个领域全球最顶尖的人,加入一个红海市场就没有意义。只有通过深度思考,发挥自己的优势,找到差异化,才能创造更高的价值。我相信,这也是创新和进步的本质。


我曾经看过 Jeff Bezos 的一个采访,深有共鸣。他提到,自己本科时成绩不错,但有个室友对课程内容的理解速度远超他,他立刻意识到自己不该继续追求这个方向,于是选择了转行。我在北大时也有类似的感觉,尽管我通过努力学习进入了年级前五,但我知道我的理解力未必比年级前 30 的人强,只是我比他们更用功。因此,我选择了一个我可以做到足够独特的领域。


奇绩:所以你认为公司如果做不到赛道前三,不如去其他能创造独特价值的领域?

谢晨:不是前三,必须做第一。我觉得由于 AI 技术等各方面的发展,将来的市场会遵循指数级规律,可能在某个细分市场,除了第一,其他名次没有任何生存空间。


奇绩:这种差异化思想如何在光轮实践中体现?

谢晨:有一个例子可以说明,就是关于公司究竟应该聚焦客户的大问题还是小问题的思考。


过去我认为,应该优先解决客户最大的问题。但实际上,深入与客户沟通后,我们发现,客户的大问题往往已经有了现有的解决方案。客户通常会有一个大型解决方案提供商,这样的领域就没有太多空隙可插入。而且,如果你总是关注大问题,你会不断受到挑战,别人会问你的差异化在哪里。最终你会发现,唯一能解释差异化的方式就是“人无我有,人有我好”。


因此,我更倾向于先专注于客户的小问题,虽然这些问题看似不那么显著,但却极其痛点。通过解决这些小问题,获得客户的信任,当客户愿意将更多的需求交给我们时,我们也能够逐步解决更大的问题。这种方式能逐步放大我们的影响力,最终能够有效地解决大问题。


奇绩:这已经是你第三次创业,这次创业和之前有什么不同?

谢晨:之前的创业其实更像是做项目,本质上我还是以学生身份在参与。那些经历教会了我创业的艰难,也让我深刻理解了商业化、团队建设以及人才的重要性。同时,这些经历也给了我信心,让我意识到自己适合创业。这次创业的最大不同在于,我更加从容了,对事情有了更合理的预期。我在商业、产品、技术上的思考,也开始学会如何从终局的角度去思考,如何打造商业模式,如何招到最优秀的人才,如何获得最强的资金支持,这些都是全新的体会。


这次最不同的地方是,我开始学会享受创业的过程。以前我是一个非常注重结果的人,但创业不能仅仅追求结果,必须关注并享受过程,否则遇到问题时会非常痛苦。创业不是为了几年内实现某个个人目标或业绩,而是要每天都在努力提升自己,给客户和团队创造更多的价值。每天都有收获,这种心态对创业至关重要。当然,我还在逐步实践这个理念,不能说完全知行合一,但这无疑是我前进的方向。


奇绩:预计光轮的使命,即服务 AGI 进入物理世界的数据,何时能达成?

谢晨:这是一个极具使命感且非常长远的目标。AGI 可以分为两个阶段,我认为实现物理世界的 AGI 至少需要五年时间。而将 AGI 推广到千行百业可能需要更长时间,甚至未来几十年都将致力于这项工作。从初步的落地,到广泛应用于各行各业,再到逐渐做得更好,这个过程是没有尽头的。



光轮智能诚邀人才加入


我们正在寻找志同道合的伙伴,全职和实习岗位均有开放,工作地点灵活(北京、上海、杭州),期待你的加入!


全职岗位


实习岗位


如果你对仿真、具身智能充满热情,欢迎加入我们,一起探索科技的无限可能。立即投递 hr@lightwheel.ai,开启你的智能时代之旅!


(全文完)




加入 #奇绩创业社区# 

扫描创业营二维码,提交奇绩创业营申请表,即可【免费】加入社区,【滑动】查看并免费领取创业社区独家资源:


左右滑动查看更多资源




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

合成数据 具身智能 AI创业 光轮智能
相关文章