自我模拟和预测：机器实现自指又迈进了一步

原创集智编辑部 2025-03-22 14:01 北京

通过观察自身的运动，类似于人类观察镜子中的反射，机器人学会了一种自我模拟的能力，并能够为各种任务预测其空间运动。

摘要

视觉的出现催化了一项关键的进化进步，使生物不仅能够感知环境，还能智能地与环境互动。这一转变在机器人系统的进化中得到了呼应，机器人通过利用视觉来模拟和预测自身动态，标志着向自主性和自我意识迈出了一大步。人类利用视觉记录经验并在内部模拟潜在行动。例如，我们可以想象站起来并举起双臂，身体会在形成一个“T”形，而不需要采取实际行动。同样，模拟使机器人能够在无需执行的情况下规划和预测潜在行动的结果。在此，我们引入了一种自监督学习框架，使机器人仅通过简短的原始视频数据就能建模和预测其形态、运动学和运动控制，从而无需大量的现实世界数据收集和运动学先验知识。通过观察自身的运动，类似于人类观察镜子中的反射，机器人学会了一种自我模拟的能力，并能够为各种任务预测其空间运动。我们的研究结果表明，这种自我学习的模拟不仅能够实现精确的运动规划，还能使机器人检测异常并从损伤中恢复。

研究领域：自监督学习，自我建模，神经辐射场（NeRF）、运动规划，异常检测，形态预测

论文题目：Teaching robots to build simulations of themselves
发表时间：2025年2月25日
论文地址：https://www.nature.com/articles/s42256-025-01006-w
期刊名称：Nature Machine Intelligence

机器人的“镜中自我”

机器人能否像人类一样通过“照镜子”认识自己？

视觉的进化让生物不仅能感知环境，还能通过想象预测行动的结果。当我们照镜子时，大脑会建立自身运动与视觉反馈之间的关联，最终可以闭眼模拟举手投足的姿态，而机器人能否像人一样，仅凭视觉观察构建对自身形态和运动能力的认知？

图 1. 正在探索“镜中自我”的机器人

近期，Nature Machine Intelligence 杂志上发表了一项研究：机器人无需详尽的CAD模型或复杂的外部传感器，仅凭单个摄像头观察自身运动，便能自主建立一个准确的自身模型（self-model）。机器人通过视觉反馈，逐渐掌握自己身体结构与运动的关系，仿佛人类通过镜子认识自己的过程一样。这种新颖的能力被研究人员称作“运动学自我意识（Kinematic Self-Awareness）”，其目标是赋予机器人理解自身、适应环境变化甚至在受损时快速恢复的能力，而无需频繁的人工干预。

机器人如何建立起“自我形象”？

传统机器人依赖工程师预先设计的CAD模型和运动学方程，而在该研究中，团队提出了一种自由形态运动学自模型（Free-Form Kinematic Self-Model, FFKSM），这是一种基于查询（query-based）的神经网络架构，它回答的问题是：给定空间坐标点 X=(x,y,z) 和关节角度 A = (A₀, A₁, A₂, A₃)，输出该点是否被机器人占据和是否在摄像头视野中。

FFKSM 包含三个核心部分：坐标编码器（Coordinates Encoder）、运动学编码器（Kinematic Encoder）和预测模块（Predictive Module）。

图2. 自由形态运动学自模型（Free-Form Kinematic Self-Model, FFKSM）模型架构概览

想象一下机器人的"大脑"分为三个协同工作的区域：

坐标编码器 C(·) ：

用于处理空间位置信息，输入当前查询点（query point）的位置坐标 X 和机器人的基础姿态，即底座的朝向 A₀ 和主臂位置 A₁。先通过变换矩阵 T 将查询点从世界坐标系 X 转换到虚拟坐标系 X'=T(X, A₀, A₁) 中。这相当于将“机器人底座移动”转换为“摄像头相对机器人底座的移动”，使模型能专注于手臂形态学习。坐标编码器输出该坐标的基础特征。

运动学编码器 K(·) ：

专注于手臂的弯曲方式，相当于人类感知自己手臂和手腕如何弯曲，它处理剩余关节的角度信息。输入关节角 A₂, A₃，运动学编码器输出运动学特征，表征机器人此刻关节弯曲状态。

预测模块 P(·) ：

综合前两个区域的信息，判断该空间点的密度 σ ：是否被机器人身体占据；以及可见性 α ：摄像头能否看到这个点。通过大量的空间点预测，可以形成完整的机器人自我形象。

完整模型可表示为：

模型训练

当婴儿首次面对镜子抬起手臂时，会逐步领悟镜子里动作与自身肢体的对应关系。类似地，机器人通过建立自身位置、关节状态与相机图像之间的关系，理解自己的身体结构、预测运动形态。这种方法的巧妙之处在于，无需人为设定机器人每个身体部位的精确模型与参数，而是让它通过视觉反馈进行自监督学习，建立起一个对自身“身体”的理解。

训练数据：机器人的"咿呀学语"

在学习开始前，需要准备一些机器人“自我”的真实数据。就像人类婴儿在大量漫无目的地手脚挥动过程中，逐渐学会了如何控制自己的身体；在这个阶段，机器人也需要随机进行关节移动，摄像机会拍摄记录机器人每个姿态下的图像，作为真实值（groud truth）用于后续训练。通过这种方式，收集了机器人在12,000种不同姿势下的数据，其中80%用于模型训练，剩余20%用于模型效果验证。

为了帮助机器人更好地学习，研究团队将摄像头记录的图像进行预处理，将彩色图像处理成黑白二值图像，其中黑色为背景，白色部分是机器人本体。这种处理相当于仅给机器人提供自身关键轮廓信息，免受其他无关信息的干扰。

模型优化：“想象”与现实对齐

模型训练时，机器人会在“大脑”中（即通过FFKSM模型）尝试根据当前的关节角度，预测自身的形态，就像闭上眼睛想象自己伸手的位置一样。具体而言，针对图像每一个像素点，机器人会从摄像头发射一条射线，并在每条射线上均匀选取多个点，然后逐一查询这些点的密度和可见性。最后，机器人将射线上所有采样点的预测值加和起来，即为对该像素的预测值。通过这种射线扫描的方式，逐步预测出所有像素点的情况，也就是“完整形象”。

为了让机器人的预测更加准确，也就是更接近真实图像的情况，研究人员使用均方误差（MSE）作为损失函数，衡量机器人预测的图像与实际真实图像之间的差异。结合反向传播算法，调整自身神经网络内部的参数，直至预测误差最小。整个过程就好比，小孩总是对照镜子感到好奇，因为从镜子中见到没看见过的完整自我，直到有一天发现镜子中看到的与自己预期完全一致，也就不再感兴趣了（学习过程也就完成了）。

实验发现

FFKSM模型训练完成后，机器人初步具备了三项关键的“自我意识”：分别是3D形态预测能力，运动规划能力，和检测异常并自我修复的能力。

图3. 模型训练后机器人表现的三项关键能力

形态预测能力

机器人能够在任意关节配置下，准确预测自己在空间中的形态。当询问机器人：“如果你的关节角度设为 [30°, 45°, -20°, 15°]，你身体的哪些位置会占据空间？”机器人便能清晰地想象并展示出自己的身体在空间中的分布位置。

这种能力不仅适用于训练用的机器人，还能泛化到不同硬件设计的机器人上，甚至能针对特定部件进行单独预测，例如图4中的蓝色执行器。机器人在大脑里形成了一个“数字版的自己”，能够随时“想象”自己的动作后果。

图4：3D形态预测。绿色点云表示预测结果，黑色轮廓显示实际机器人形态。

运动规划能力

过去，机器人实现动作控制通常需要复杂的运动学公式。而自由形态运动学自模型（FFKSM）使机器人能像人类凭直觉拿取物体一样，无需显式的运动学方程即可行动：在轨迹追踪任务上，能够控制手臂精确地沿着给定的3D轨迹运动，如图5A所示的螺旋路线。在避障规划任务上，机器人在有障碍的环境中，为自我规划安全的路径，避免碰撞障碍物。这是通过模型预测自身和末端执行器的位置，判断各处潜在的碰撞风险，并寻找安全路径实现的。

图 5. 运动规划应用

“自愈”能力

复杂的作业环境中有较大的损伤风险，如图6A发生连杆弯曲，因此及时的损伤检测能力非常关键。该模型训练的机器人可以根据当前姿势，预测出自己的应有的正常形态，再与实际看到的自己进行比较。类似人类觉察自己手臂无法抬起，如果预测与真实图像差距超出一定阈值，机器人便知道自己“受伤”了，随即启动新的自我探索过程，用新数据调整自身模型，以适应新的身体形态，进而恢复正常功能。图6B 中展示了使用10、100、1000和10000个数据点时的误差变化，证明随着数据增加，模型能够逐渐适应机器人的新形态。

试想一个在遥远或危险环境中工作的机器人，例如核电站，即使受损也能自我调整以完成任务，而无需人类干预。这种能力对于未来太空探索、深海作业或灾难救援等领域有着深刻意义。

图6. 异常检测与损伤恢复

通向“具身智能”的关键一步

这项研究突破了机器人自我建模对硬件和先验知识的依赖，其意义堪比生物进化史上的“镜像认知”跃迁。研究团队计划，未来将把框架扩展至柔性机器人，通过融合扭矩传感器实现软体形态预测。当机器人能像人类一样“感知身体、预判动作”，真正的自主适应性或许不再遥远。正如文章所说：“这不仅是算法的进步，更是机器认知边界的一次拓展——从执行指令的工具，迈向拥有‘身体自我意识’的智能体。”

彭晨 | 编译

具身智能读书会启动

集智俱乐部联合上海交通大学助理教授李永露、银河通用机器人合伙人史雪松、南京大学LAMDA组博士生陈雄辉、香港大学在读博士生穆尧，共同发起首季「具身智能」读书会。读书会计划采用“自下而上”的层级结构，探讨四个核心模块：硬件系统（机器人本体设计），数据、仿真环境与Benchmark，机器人学习，具体场景任务。希望通过重点讨论经典、前沿的重要文献，帮助大家更好地学习机器人与具身智能技术前沿技术，为相关领域的研究和应用提供洞见。

读书会从2025年1月19日开始，每周日14:00-16:00，持续时间预计 6-8 周左右。每周进行线上会议，与主讲人等社区成员当面交流，之后可以获得视频回放持续学习。