AI机器人现阶段的主要矛盾：如何低成本地采集高质量的数据？

AI机器人，具身智能，数据采集，真实数据，合成数据，泛化任务，训练数据

前言

在AI生态内有一个基础共识，算法、算力、数据，是AI的三大支柱。

今天聊聊数据这个维度，在自动驾驶阶段，数据的需求主要体现在数据标注上，到了大语言模型阶段，也许最重要的是数据质量的评估，而到了AI机器人阶段，数据的主要矛盾则落在了采集上。

这是因为，AI机器人涉及到更复杂的物理世界的数据采集，成本相对高。所以主要矛盾在于如何降低采集数据的成本，更准确地说，是如何降低采集到质量过关的数据的成本。

一个多月前在硅谷的时候，我和Physical Intelligence的一位员工简单交流过，数据采集也确实是他们现阶段重中之重的工作，质量过关的数据量还远远不够。

这个主要是受制于数据采集的技术路线——人摇操机械臂并收集机械臂的数据，由于硬件成本限制，机械臂的数量是有限的，即便人员三班倒，同等时间内可获得的数据量也是远远不够的。更何况对数据质量要求不低，要保证持续采集到质量过关的数据，也要承担相对应的人员成本。

而Physical Intelligence已经是全世界在做AI机器人通用模型的top之top团队了，他们目前的进度也还卡在数据采集上。那次交流之后，我就意识到现阶段AI机器人的主要矛盾，就在于如何低成本地采集高质量的数据。

平时我也有意无意地吸收一些相关信息，上个周末，我系统地梳理了下AI机器人领域 (现在也流行叫具身智能) 关于数据采集路线的一些脉络信息，整理出来分享给大家。

1 AI机器人的实现路线分类

AI机器人的实现路线可以从两个维度来分类：任务类型和实现方法。这种分类不仅反映了AI机器人领域的发展历程，也体现了不同方法在数据需求和成本方面的演变。

特定任务 vs 泛化任务

Specific Tasks vs Generalized Tasks

这个维度反映了AI机器人能力的广度和适应性。

特定任务机器人专注于解决单一或有限范围的问题。在早期阶段，这类机器人主要依赖固定程序实现，几乎不涉及数据采集和学习过程。例如，早期的工业机器人就是通过精确编程来完成特定的重复任务，如焊接或装配。这种方法在受控环境中效果显著，且无需大量数据支持。

然而，随着技术的进步和需求的增长，即使是特定任务机器人也开始逐步引入基于数据的方法，以提高灵活性和适应性。这种转变带来了数据需求的增加，但相比泛化任务AI机器人，其数据需求仍然相对较小。

泛化任务AI机器人则旨在处理更广泛、更多样化的任务。这类AI机器人从一开始就更依赖于数据驱动的方法，因为它们需要学习处理各种不同的情况。因此，泛化任务AI机器人通常需要更大规模、更多样化的训练数据。

固定程序 vs 训练数据

Fixed Program (Software 1.0) vs Training Data (Software 2.0)

这个维度反映了实现AI机器人的方法学变革。

固定程序方法代表了传统的编程范式。在这种方法中，机器人的行为完全由预先定义的规则和算法决定。这种方法在数据需求方面几乎为零，主要依赖于程序员的专业知识。它特别适用于特定任务机器人，尤其是在任务明确、环境可控的情况下。

然而，固定程序方法在处理复杂、动态环境时往往显得力不从心。随着任务复杂性的增加和环境不确定性的提高，纯粹的规则based系统变得越来越难以应对。

训练数据方法则代表了机器学习，特别是深度学习的兴起。这种方法允许机器人通过大量数据学习复杂的模式和行为。虽然它需要大量数据，但能够更好地处理复杂任务和适应新环境。这种方法特别适用于泛化任务AI机器人，但也越来越多地应用于提高特定任务AI机器人的性能。

理论上，这两个维度的组合形成了AI机器人实现的四种主要路线。实际上，「泛化任务 + 固定程序」的组合显然并不可行，因此AI机器人的实现一共只会有三种可行的路线。

「特定任务 + 固定程序」的组合代表了最传统的机器人实现方式，不需要进行数据训练。而「泛化任务 + 训练数据」的组合则代表了最前沿的AI机器人实现方式，对数据的需求最大。「特定任务 + 训练数据」则代表了过渡阶段，数据需求介于两者之间。

可见，随着我们从特定任务向泛化任务、从固定程序向训练数据方法转变，数据需求逐步增加，数据采集的成本和复杂性也随之上升。

这种演变趋势解释了为什么大规模、高质量、低成本的数据采集成为了当前AI机器人研究的一个关键挑战。

2 AI机器人的数据采集路线分类

随着AI机器人向更复杂的任务和更灵活的实现方法发展，数据需求显著增加。为了应对这一挑战，研究者们开发了多种数据采集路线。这些数据采集路线可以广泛地分为两大类：真实数据和合成数据。每种路线都有其独特的优势和挑战，选择合适的路线或组合多种路线对于平衡数据质量、数量和采集成本至关重要。

真实数据

Real Data

真实数据直接来自真实世界的交互，包括机器人自身的操作数据和人类的操作数据。这类数据的最大优势在于其真实性和完整性，能够捕捉到真实环境中的复杂性和不确定性。

真实数据 - 采集机器人的数据

Real Data from robots (简称RDr)

这是最直接的数据采集方式，能够准确反映机器人在真实环境中的表现。RDr特别适用于需要精确控制和实时反馈的任务，如工业自动化或精密操作。

然而，RDr通常需要大量的硬件资源和时间，成本较高。此外，如果机器人设计存在缺陷，采集的数据可能会反映这些问题，限制了学习的效果。

真实数据 - 采集人的数据

Real Data from human (简称RDh)

利用人类的操作数据可以为机器人提供丰富的行为模式和问题解决策略。这种方法特别适用于需要高级认知能力或复杂决策的任务，如自然语言处理或策略规划。RDh的优势在于可以快速获得大量高质量的数据，特别是在处理新任务或未知环境时。

然而，RDh面临的主要挑战是如何将采集的人类数据有效地用于训练机器人模型，以及如何处理人类操作中的不一致性和错误。

合成数据

Synthetic Data (简称SD)

合成数据是通过计算机模拟或生成模型创造的数据。合成数据的主要优势在于可以快速且大量地生成数据，从而降低成本，并且可以模拟在现实中难以实现或危险的场景。

合成数据特别适用于需要大量训练数据的深度学习模型，或者需要探索极端情况的安全关键系统。例如，在自动驾驶领域，合成数据可以用来模拟各种罕见但重要的交通场景。

然而，合成数据的主要挑战在于如何保证其真实性和有效性。如果生成的数据与真实世界存在显著差异，那么基于这些数据训练的模型可能在实际应用中表现不佳。因此，研究者们正在不断改进数据生成技术，如使用生成对抗网络(GANs)来创建更真实的合成数据。

3 AI机器人数据采集路线迭代时间线

随着AI机器人技术的不断发展，不同代际的AI机器人公司所采用数据采集策略也经历了显著的演变。这种演变不仅反映了技术的进步，也体现了行业对数据重要性认识的深化。以下时间线概述了各类AI机器人公司数据采集路线的主要发展阶段，展示了从无数据需求到大规模、多样化数据采集的转变过程。

Phase 1「特定任务 + 固定程序」

本阶段以家用扫地机器人、工厂分拣机器人等AI机器人公司为主不涉及数据采集

Phase 2「特定任务 + 训练数据」

本阶段呈现phase 1阶段AI机器人公司转型训练数据的趋势本阶段的数据采集路线以RDr和SD为主，且采集的RDr机器人数据仅可用于与采集数据所使用的机器人同一形态的机器人的训练本阶段「泛化任务 + 训练数据」类型的AI机器人公司处于研究状态，突破不多

作为分水岭的2024年：Open X-Embodiment论文发布

2023年下半年，Physical Intelligence的几位founders(在公司成立前)作为主要研究人员发布了一篇行业内的重要论文[1]。论文突破性地论证：

一种机器人的训练数据是可以用于训练其他形态的机器人的。

打破了之前训练数据只能用于训练同一形态机器人的局限性认知。在此之后：

由于人本身就是一种复杂形态的机器人，因此可以直接采集人的数据用于机器人的训练

Phase 3「泛化任务 + 训练数据」

本阶段此类厂商获得融资最多本阶段的数据采集路线除RDr和SD以外，还出现了RDh路线

本阶段厂商典型举例：

这个时间线清晰地展示了AI机器人数据采集策略的演进过程。从最初的无数据需求，到逐步认识到数据的重要性，再到突破性地实现跨形态数据共享，每一个阶段都标志着行业的重大进展。

总结

聊到这里，纵观AI机器人领域的发展，数据采集已成为当前的核心挑战。从「特定任务 + 固定程序」到「泛化任务 + 训练数据」，数据需求呈指数级增长。业内正在各种数据采集路线中寻求平衡，以优化质量、数量和成本。

2023年下半年Open X-Embodiment论文的发布无疑是一个里程碑，证实了跨形态机器人数据共享的可行性，大幅扩展了数据利用范围，为降低采集成本提供了新思路，也许AI机器人领域的Scale AI就在蓬勃的孕育之中。

个人认为，尤其是采集人类数据用于训练机器人这一路线蕴含着巨大的商业潜力，在这一数据采集路线上取得突破的企业很可能在AI机器人数据赛道上占据先机。

随着离线强化学习、迁移学习等技术的进步，加上更多创新的数据采集和利用策略，高质量、低成本的数据采集这一瓶颈有望被突破，进而推动AI机器人领域向更智能、更通用的方向快速发展。

注：

1. Padalkar, Abhishek, et al. "Open x-embodiment: Robotic learning datasets and rt-x models." arXiv preprint arXiv:2310.08864 (2023).

2. 本文题图由作者使用 ideogram app 生成，全部配图由作者使用 Napkin AI 生成。

3. 文中关于AI机器人行业数据采集路线的梳理，来自于行业内交流及公开信息，或有不严谨之处，请谨慎参考。

4. 文中使用的缩略词汇并非行业通用词汇，仅供文内阅读方便使用。

5. 作者使用了 Claude 3.5 Sonnet 对本文进行内容梳理和表达优化。

前言