本文介绍了一种创新的自监督学习框架,使机器人仅通过观察自身运动,就能构建自身形态和运动的准确模型。该框架类似于人类通过“照镜子”认识自己,机器人通过视觉反馈,无需预先设计的CAD模型或复杂的外部传感器,就能预测其空间运动,实现精确的运动规划、异常检测和损伤恢复。这项研究标志着机器人向自主性和自我意识迈出了一大步,为未来机器人技术的发展提供了新的思路和可能性。
🤖️ 自由形态运动学自模型(FFKSM)是该研究的核心,它是一种基于查询的神经网络架构。通过坐标编码器、运动学编码器和预测模块协同工作,机器人能够判断空间点是否被自身占据以及是否在摄像头视野中,从而构建完整的自我形象。
👁️ 机器人通过视觉反馈进行自监督学习,就像婴儿学习控制自己的身体一样。通过随机关节移动,记录不同姿态下的图像,并进行预处理,仅提供机器人关键轮廓信息,使机器人能够建立自身位置、关节状态与相机图像之间的关系。
💡 FFKSM模型训练完成后,机器人初步具备了三项关键的“自我意识”:3D形态预测能力,运动规划能力,和检测异常并自我修复的能力。例如,机器人能够预测自身形态,进行轨迹追踪和避障,并在受损时自我调整,恢复功能。
原创 集智编辑部 2025-03-22 14:01 北京
通过观察自身的运动,类似于人类观察镜子中的反射,机器人学会了一种自我模拟的能力,并能够为各种任务预测其空间运动。

视觉的出现催化了一项关键的进化进步,使生物不仅能够感知环境,还能智能地与环境互动。这一转变在机器人系统的进化中得到了呼应,机器人通过利用视觉来模拟和预测自身动态,标志着向自主性和自我意识迈出了一大步。人类利用视觉记录经验并在内部模拟潜在行动。例如,我们可以想象站起来并举起双臂,身体会在形成一个“T”形,而不需要采取实际行动。同样,模拟使机器人能够在无需执行的情况下规划和预测潜在行动的结果。在此,我们引入了一种自监督学习框架,使机器人仅通过简短的原始视频数据就能建模和预测其形态、运动学和运动控制,从而无需大量的现实世界数据收集和运动学先验知识。通过观察自身的运动,类似于人类观察镜子中的反射,机器人学会了一种自我模拟的能力,并能够为各种任务预测其空间运动。我们的研究结果表明,这种自我学习的模拟不仅能够实现精确的运动规划,还能使机器人检测异常并从损伤中恢复。
研究领域:自监督学习,自我建模,神经辐射场(NeRF)、运动规划,异常检测,形态预测
论文题目:Teaching robots to build simulations of themselves期刊名称:Nature Machine Intelligence
视觉的进化让生物不仅能感知环境,还能通过想象预测行动的结果。当我们照镜子时,大脑会建立自身运动与视觉反馈之间的关联,最终可以闭眼模拟举手投足的姿态,而机器人能否像人一样,仅凭视觉观察构建对自身形态和运动能力的认知?近期,Nature Machine Intelligence 杂志上发表了一项研究:机器人无需详尽的CAD模型或复杂的外部传感器,仅凭单个摄像头观察自身运动,便能自主建立一个准确的自身模型(self-model)。机器人通过视觉反馈,逐渐掌握自己身体结构与运动的关系,仿佛人类通过镜子认识自己的过程一样。这种新颖的能力被研究人员称作“运动学自我意识(Kinematic Self-Awareness)”,其目标是赋予机器人理解自身、适应环境变化甚至在受损时快速恢复的能力,而无需频繁的人工干预。
传统机器人依赖工程师预先设计的CAD模型和运动学方程,而在该研究中,团队提出了一种自由形态运动学自模型(Free-Form Kinematic Self-Model, FFKSM),这是一种基于查询(query-based)的神经网络架构,它回答的问题是:给定空间坐标点 X=(x,y,z) 和关节角度 A = (A0, A1, A2, A3),输出该点是否被机器人占据和是否在摄像头视野中。FFKSM 包含三个核心部分:坐标编码器(Coordinates Encoder)、运动学编码器(Kinematic Encoder)和预测模块(Predictive Module)。图2. 自由形态运动学自模型(Free-Form Kinematic Self-Model, FFKSM)模型架构概览
用于处理空间位置信息,输入当前查询点(query point)的位置坐标 X 和机器人的基础姿态,即底座的朝向 A0 和主臂位置 A1。先通过变换矩阵 T 将查询点从世界坐标系 X 转换到虚拟坐标系 X'=T(X, A0, A1) 中。这相当于将“机器人底座移动”转换为“摄像头相对机器人底座的移动”,使模型能专注于手臂形态学习。坐标编码器输出该坐标的基础特征。
专注于手臂的弯曲方式,相当于人类感知自己手臂和手腕如何弯曲,它处理剩余关节的角度信息。输入关节角 A2, A3,运动学编码器输出运动学特征,表征机器人此刻关节弯曲状态。
综合前两个区域的信息,判断该空间点的密度 σ :是否被机器人身体占据;以及可见性 α :摄像头能否看到这个点。通过大量的空间点预测,可以形成完整的机器人自我形象。
当婴儿首次面对镜子抬起手臂时,会逐步领悟镜子里动作与自身肢体的对应关系。类似地,机器人通过建立自身位置、关节状态与相机图像之间的关系,理解自己的身体结构、预测运动形态。这种方法的巧妙之处在于,无需人为设定机器人每个身体部位的精确模型与参数,而是让它通过视觉反馈进行自监督学习,建立起一个对自身“身体”的理解。训练数据:机器人的"咿呀学语"
在学习开始前,需要准备一些机器人“自我”的真实数据。就像人类婴儿在大量漫无目的地手脚挥动过程中,逐渐学会了如何控制自己的身体;在这个阶段,机器人也需要随机进行关节移动,摄像机会拍摄记录机器人每个姿态下的图像,作为真实值(groud truth)用于后续训练。通过这种方式,收集了机器人在12,000种不同姿势下的数据,其中80%用于模型训练,剩余20%用于模型效果验证。为了帮助机器人更好地学习,研究团队将摄像头记录的图像进行预处理,将彩色图像处理成黑白二值图像,其中黑色为背景,白色部分是机器人本体。这种处理相当于仅给机器人提供自身关键轮廓信息,免受其他无关信息的干扰。
模型优化:“想象”与现实对齐
模型训练时,机器人会在“大脑”中(即通过FFKSM模型)尝试根据当前的关节角度,预测自身的形态,就像闭上眼睛想象自己伸手的位置一样。具体而言,针对图像每一个像素点,机器人会从摄像头发射一条射线,并在每条射线上均匀选取多个点,然后逐一查询这些点的密度和可见性。最后,机器人将射线上所有采样点的预测值加和起来,即为对该像素的预测值。通过这种射线扫描的方式,逐步预测出所有像素点的情况,也就是“完整形象”。为了让机器人的预测更加准确,也就是更接近真实图像的情况,研究人员使用均方误差(MSE)作为损失函数,衡量机器人预测的图像与实际真实图像之间的差异。结合反向传播算法,调整自身神经网络内部的参数,直至预测误差最小。整个过程就好比,小孩总是对照镜子感到好奇,因为从镜子中见到没看见过的完整自我,直到有一天发现镜子中看到的与自己预期完全一致,也就不再感兴趣了(学习过程也就完成了)。
FFKSM模型训练完成后,机器人初步具备了三项关键的“自我意识”:分别是3D形态预测能力,运动规划能力,和检测异常并自我修复的能力。形态预测能力
机器人能够在任意关节配置下,准确预测自己在空间中的形态。当询问机器人:“如果你的关节角度设为 [30°, 45°, -20°, 15°],你身体的哪些位置会占据空间?”机器人便能清晰地想象并展示出自己的身体在空间中的分布位置。这种能力不仅适用于训练用的机器人,还能泛化到不同硬件设计的机器人上,甚至能针对特定部件进行单独预测,例如图4中的蓝色执行器。机器人在大脑里形成了一个“数字版的自己”,能够随时“想象”自己的动作后果。图4:3D形态预测。绿色点云表示预测结果,黑色轮廓显示实际机器人形态。
运动规划能力
过去,机器人实现动作控制通常需要复杂的运动学公式。而自由形态运动学自模型(FFKSM)使机器人能像人类凭直觉拿取物体一样,无需显式的运动学方程即可行动:在轨迹追踪任务上,能够控制手臂精确地沿着给定的3D轨迹运动,如图5A所示的螺旋路线。在避障规划任务上,机器人在有障碍的环境中,为自我规划安全的路径,避免碰撞障碍物。这是通过模型预测自身和末端执行器的位置,判断各处潜在的碰撞风险,并寻找安全路径实现的。“自愈”能力
复杂的作业环境中有较大的损伤风险,如图6A发生连杆弯曲,因此及时的损伤检测能力非常关键。该模型训练的机器人可以根据当前姿势,预测出自己的应有的正常形态,再与实际看到的自己进行比较。类似人类觉察自己手臂无法抬起,如果预测与真实图像差距超出一定阈值,机器人便知道自己“受伤”了,随即启动新的自我探索过程,用新数据调整自身模型,以适应新的身体形态,进而恢复正常功能。图6B 中展示了使用10、100、1000和10000个数据点时的误差变化,证明随着数据增加,模型能够逐渐适应机器人的新形态。试想一个在遥远或危险环境中工作的机器人,例如核电站,即使受损也能自我调整以完成任务,而无需人类干预。这种能力对于未来太空探索、深海作业或灾难救援等领域有着深刻意义。
这项研究突破了机器人自我建模对硬件和先验知识的依赖,其意义堪比生物进化史上的“镜像认知”跃迁。研究团队计划,未来将把框架扩展至柔性机器人,通过融合扭矩传感器实现软体形态预测。当机器人能像人类一样“感知身体、预判动作”,真正的自主适应性或许不再遥远。正如文章所说:“这不仅是算法的进步,更是机器认知边界的一次拓展——从执行指令的工具,迈向拥有‘身体自我意识’的智能体。”
彭晨 | 编译
集智俱乐部联合上海交通大学助理教授李永露、银河通用机器人合伙人史雪松、南京大学LAMDA组博士生陈雄辉、香港大学在读博士生穆尧,共同发起首季「具身智能」读书会。读书会计划采用“自下而上”的层级结构,探讨四个核心模块:硬件系统(机器人本体设计),数据、仿真环境与Benchmark,机器人学习,具体场景任务。希望通过重点讨论经典、前沿的重要文献,帮助大家更好地学习机器人与具身智能技术前沿技术,为相关领域的研究和应用提供洞见。
读书会从2025年1月19日开始,每周日14:00-16:00,持续时间预计 6-8 周左右。每周进行线上会议,与主讲人等社区成员当面交流,之后可以获得视频回放持续学习。

详情请见:具身智能读书会启动:走向现实世界的下一代AI系统
6. 加入集智,一起复杂!
阅读原文
跳转微信打开