集智俱乐部 03月22日
自我模拟和预测:机器实现自指又迈进了一步
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了一种创新的自监督学习框架,使机器人仅通过观察自身运动,就能构建自身形态和运动的准确模型。该框架类似于人类通过“照镜子”认识自己,机器人通过视觉反馈,无需预先设计的CAD模型或复杂的外部传感器,就能预测其空间运动,实现精确的运动规划、异常检测和损伤恢复。这项研究标志着机器人向自主性和自我意识迈出了一大步,为未来机器人技术的发展提供了新的思路和可能性。

🤖️ 自由形态运动学自模型(FFKSM)是该研究的核心,它是一种基于查询的神经网络架构。通过坐标编码器、运动学编码器和预测模块协同工作,机器人能够判断空间点是否被自身占据以及是否在摄像头视野中,从而构建完整的自我形象。

👁️ 机器人通过视觉反馈进行自监督学习,就像婴儿学习控制自己的身体一样。通过随机关节移动,记录不同姿态下的图像,并进行预处理,仅提供机器人关键轮廓信息,使机器人能够建立自身位置、关节状态与相机图像之间的关系。

💡 FFKSM模型训练完成后,机器人初步具备了三项关键的“自我意识”:3D形态预测能力,运动规划能力,和检测异常并自我修复的能力。例如,机器人能够预测自身形态,进行轨迹追踪和避障,并在受损时自我调整,恢复功能。

原创 集智编辑部 2025-03-22 14:01 北京

通过观察自身的运动,类似于人类观察镜子中的反射,机器人学会了一种自我模拟的能力,并能够为各种任务预测其空间运动。


摘要


视觉的出现催化了一项关键的进化进步,使生物不仅能够感知环境,还能智能地与环境互动。这一转变在机器人系统的进化中得到了呼应,机器人通过利用视觉来模拟和预测自身动态,标志着向自主性和自我意识迈出了一大步。人类利用视觉记录经验并在内部模拟潜在行动。例如,我们可以想象站起来并举起双臂,身体会在形成一个“T”形,而不需要采取实际行动。同样,模拟使机器人能够在无需执行的情况下规划和预测潜在行动的结果。在此,我们引入了一种自监督学习框架,使机器人仅通过简短的原始视频数据就能建模和预测其形态、运动学和运动控制,从而无需大量的现实世界数据收集和运动学先验知识。通过观察自身的运动,类似于人类观察镜子中的反射,机器人学会了一种自我模拟的能力,并能够为各种任务预测其空间运动。我们的研究结果表明,这种自我学习的模拟不仅能够实现精确的运动规划,还能使机器人检测异常并从损伤中恢复。


研究领域:自监督学习,自我建模,神经辐射场(NeRF)、运动规划,异常检测,形态预测

 

论文题目:Teaching robots to build simulations of themselves
发表时间:2025年2月25日
论文地址:https://www.nature.com/articles/s42256-025-01006-w
期刊名称:Nature Machine Intelligence




机器人的“镜中自我”




机器人能否像人类一样通过“照镜子”认识自己?

视觉的进化让生物不仅能感知环境,还能通过想象预测行动的结果。当我们照镜子时,大脑会建立自身运动与视觉反馈之间的关联,最终可以闭眼模拟举手投足的姿态,而机器人能否像人一样,仅凭视觉观察构建对自身形态和运动能力的认知?

图 1. 正在探索“镜中自我”的机器人

近期,Nature Machine Intelligence 杂志上发表了一项研究:机器人无需详尽的CAD模型或复杂的外部传感器,仅凭单个摄像头观察自身运动,便能自主建立一个准确的自身模型(self-model)。机器人通过视觉反馈,逐渐掌握自己身体结构与运动的关系,仿佛人类通过镜子认识自己的过程一样。这种新颖的能力被研究人员称作“运动学自我意识(Kinematic Self-Awareness)”,其目标是赋予机器人理解自身、适应环境变化甚至在受损时快速恢复的能力,而无需频繁的人工干预。





机器人如何建立起“自我形象”?




传统机器人依赖工程师预先设计的CAD模型和运动学方程,而在该研究中,团队提出了一种自由形态运动学自模型(Free-Form Kinematic Self-Model, FFKSM),这是一种基于查询(query-based)的神经网络架构,它回答的问题是:给定空间坐标点 X=(x,y,z) 和关节角度 A = (A0, A1, A2, A3),输出该点是否被机器人占据和是否在摄像头视野中。

FFKSM 包含三个核心部分:坐标编码器(Coordinates Encoder)运动学编码器(Kinematic Encoder)和预测模块(Predictive Module)

图2. 自由形态运动学自模型(Free-Form Kinematic Self-Model, FFKSM)模型架构概览


想象一下机器人的"大脑"分为三个协同工作的区域:

    坐标编码器 C(·) :
用于处理空间位置信息,输入当前查询点(query point)的位置坐标 X 和机器人的基础姿态,即底座的朝向 A0 和主臂位置 A1。先通过变换矩阵 T 将查询点从世界坐标系 X 转换到虚拟坐标系 X'=T(X, A0, A1) 中。这相当于将“机器人底座移动”转换为“摄像头相对机器人底座的移动”,使模型能专注于手臂形态学习。坐标编码器输出该坐标的基础特征。

    运动学编码器 K(·) 
专注于手臂的弯曲方式,相当于人类感知自己手臂和手腕如何弯曲,它处理剩余关节的角度信息。输入关节角 A2, A3运动学编码器输出运动学特征,表征机器人此刻关节弯曲状态。

    预测模块 P(·)  :
综合前两个区域的信息,判断该空间点的密度 σ :是否被机器人身体占据;以及可见性 α :摄像头能否看到这个点。通过大量的空间点预测,可以形成完整的机器人自我形象。

完整模型可表示为:





模型训练




当婴儿首次面对镜子抬起手臂时,会逐步领悟镜子里动作与自身肢体的对应关系。类似地,机器人通过建立自身位置、关节状态与相机图像之间的关系,理解自己的身体结构、预测运动形态。这种方法的巧妙之处在于,无需人为设定机器人每个身体部位的精确模型与参数,而是让它通过视觉反馈进行自监督学习,建立起一个对自身“身体”的理解。

训练数据:机器人的"咿呀学语"


在学习开始前,需要准备一些机器人“自我”的真实数据。就像人类婴儿在大量漫无目的地手脚挥动过程中,逐渐学会了如何控制自己的身体;在这个阶段,机器人也需要随机进行关节移动,摄像机会拍摄记录机器人每个姿态下的图像,作为真实值(groud truth)用于后续训练。通过这种方式,收集了机器人在12,000种不同姿势下的数据,其中80%用于模型训练,剩余20%用于模型效果验证。

为了帮助机器人更好地学习,研究团队将摄像头记录的图像进行预处理,将彩色图像处理成黑白二值图像,其中黑色为背景,白色部分是机器人本体。这种处理相当于仅给机器人提供自身关键轮廓信息,免受其他无关信息的干扰。


模型优化:“想象”与现实对齐


模型训练时,机器人会在“大脑”中(即通过FFKSM模型)尝试根据当前的关节角度,预测自身的形态,就像闭上眼睛想象自己伸手的位置一样。具体而言,针对图像每一个像素点,机器人会从摄像头发射一条射线,并在每条射线上均匀选取多个点,然后逐一查询这些点的密度和可见性。最后,机器人将射线上所有采样点的预测值加和起来,即为对该像素的预测值。通过这种射线扫描的方式,逐步预测出所有像素点的情况,也就是“完整形象”。

为了让机器人的预测更加准确,也就是更接近真实图像的情况,研究人员使用均方误差(MSE)作为损失函数,衡量机器人预测的图像与实际真实图像之间的差异。结合反向传播算法,调整自身神经网络内部的参数,直至预测误差最小。整个过程就好比,小孩总是对照镜子感到好奇,因为从镜子中见到没看见过的完整自我,直到有一天发现镜子中看到的与自己预期完全一致,也就不再感兴趣了(学习过程也就完成了)




实验发现




FFKSM模型训练完成后,机器人初步具备了三项关键的“自我意识”:分别是3D形态预测能力,运动规划能力,和检测异常并自我修复的能力。

图3. 模型训练后机器人表现的三项关键能力

形态预测能力


机器人能够在任意关节配置下,准确预测自己在空间中的形态。当询问机器人:“如果你的关节角度设为 [30°, 45°, -20°, 15°],你身体的哪些位置会占据空间?”机器人便能清晰地想象并展示出自己的身体在空间中的分布位置。

这种能力不仅适用于训练用的机器人,还能泛化到不同硬件设计的机器人上,甚至能针对特定部件进行单独预测,例如图4中的蓝色执行器。机器人在大脑里形成了一个“数字版的自己”,能够随时“想象”自己的动作后果。

图4:3D形态预测。绿色点云表示预测结果,黑色轮廓显示实际机器人形态。


运动规划能力


过去,机器人实现动作控制通常需要复杂的运动学公式。而自由形态运动学自模型(FFKSM)使机器人能像人类凭直觉拿取物体一样,无需显式的运动学方程即可行动:在轨迹追踪任务能够控制手臂精确地沿着给定的3D轨迹运动,如图5A所示的螺旋路线。在避障规划任务机器人在有障碍的环境中,为自我规划安全的路径,避免碰撞障碍物。这是通过模型预测自身和末端执行器的位置,判断各处潜在的碰撞风险,并寻找安全路径实现的。

图 5. 运动规划应用

“自愈”能力


复杂的作业环境中有较大的损伤风险,如图6A发生连杆弯曲,因此及时的损伤检测能力非常关键。该模型训练的机器人可以根据当前姿势,预测出自己的应有的正常形态,再与实际看到的自己进行比较。类似人类觉察自己手臂无法抬起,如果预测与真实图像差距超出一定阈值,机器人便知道自己“受伤”了,随即启动新的自我探索过程,用新数据调整自身模型,以适应新的身体形态,进而恢复正常功能。图6B 中展示了使用10、100、1000和10000个数据点时的误差变化,证明随着数据增加,模型能够逐渐适应机器人的新形态。

试想一个在遥远或危险环境中工作的机器人,例如核电站,即使受损也能自我调整以完成任务,而无需人类干预。这种能力对于未来太空探索、深海作业或灾难救援等领域有着深刻意义。

图6. 异常检测与损伤恢复




通向“具身智能”的关键一步




这项研究突破了机器人自我建模对硬件和先验知识的依赖,其意义堪比生物进化史上的“镜像认知”跃迁。研究团队计划,未来将把框架扩展至柔性机器人,通过融合扭矩传感器实现软体形态预测。当机器人能像人类一样“感知身体、预判动作”,真正的自主适应性或许不再遥远。正如文章所说:“这不仅是算法的进步,更是机器认知边界的一次拓展——从执行指令的工具,迈向拥有‘身体自我意识’的智能体。”


彭晨 | 编译



具身智能读书会启动


集智俱乐部联合上海交通大学助理教授李永露、银河通用机器人合伙人史雪松、南京大学LAMDA组博士生陈雄辉、香港大学在读博士生穆尧,共同发起首季「具身智能」读书会。读书会计划采用“自下而上”的层级结构,探讨四个核心模块:硬件系统(机器人本体设计),数据、仿真环境与Benchmark,机器人学习,具体场景任务。希望通过重点讨论经典、前沿的重要文献,帮助大家更好地学习机器人与具身智能技术前沿技术,为相关领域的研究和应用提供洞见。


读书会从2025年1月19日开始,每周日14:00-16:00,持续时间预计 6-8 周左右。每周进行线上会议,与主讲人等社区成员当面交流,之后可以获得视频回放持续学习。



详情请见:具身智能读书会启动:走向现实世界的下一代AI系统



推荐阅读
1. 让机器人像人类一样终身学习,突破性框架LEGION登Nat. Mach. Intell.
2. PNAS速递:微型软体机器人的单步精确编程
3. 简单生物如何形成复杂认知?昆虫智能启发群体智能与集群机器人
4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程
5. 解锁集智全站内容,开启新年学习计划

6. 加入集智,一起复杂!



点击“阅读原文”,报名读书会

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

机器人 自监督学习 自我建模 运动规划
相关文章