麻省理工学院(MIT)的研究团队开发了一种基于视觉的深度学习方法,仅需单个摄像头即可让软体机器人和仿生机器人学习运动与控制。该技术的核心在于利用深度学习和名为“神经雅可比场(NJF)”的技术,使机器人通过视觉反馈建立对自身形态与运动能力的认知。通过对多种机器人进行多视角随机运动视频训练,系统能够通过单帧图像重建机器人三维形态与运动范围。这项突破有望降低机器人开发成本,并为机器人应用于非结构化环境(如农场、工地)开启新的可能性。
👁️ **核心技术:** MIT团队提出的方法主要依赖于深度学习和“神经雅可比场(NJF)”技术。该技术使得机器人能够通过单个摄像头捕捉运动画面,并通过视觉反馈建立对自身形态与运动能力的认知。
💡 **训练方式:** 研究团队使用2-3小时的多视角随机运动视频对多种机器人进行训练。这种训练方式使得神经网络能够通过单帧图像重建机器人的三维形态与运动范围。
🦾 **应用范围:** 该技术已在气动软体机械手、奥利格罗机械手(16自由度)、3D打印机械臂及低成本Poppy机械臂等多种机器人上进行了测试。测试结果显示,该系统能够实现关节运动误差小于3度,指尖控制误差小于4毫米,并能自适应环境动态变化。
🌍 **未来展望:** MIT助理教授文森特・西茨曼认为,视觉作为弹性传感器,为机器人应用于农场、工地等非结构化环境开启了新的可能性。CSAIL主任丹妮拉・罗斯补充说,视觉反馈使系统建立自身运动动力学的内部模型,在传统定位方法失效处实现自监督操作。
IT之家 7 月 13 日消息,麻省理工学院(MIT)团队提出一种基于视觉的深度学习方法,仅需单个摄像头即可让软体机器人和仿生机器人学习运动与控制。
该技术突破有望大幅降低机器人开发成本,相关成果已于 6 月 25 日发表于《自然》主刊(IT之家附 DOI: 10.1038/s41586-025-09170-0)。

传统工业机器人虽易于建模控制,但刚性结构难以适应狭小或不平坦地形。软体及仿生机器人虽具备环境适应优势,却通常依赖大量传感器和定制化空间模型。
现在,MIT 团队通过深度学习技术解决了这一矛盾。新系统仅需通过单个摄像头捕捉机器人运动画面,结合名为“神经雅可比场(NJF)”的技术,使机器人通过视觉反馈建立对自身形态与运动能力的认知。

研究团队对多种机器人进行了 2-3 小时多视角随机运动视频训练,成功让神经网络通过单帧图像重建机器人三维形态与运动范围。
在气动软体机械手、奥利格罗机械手(16 自由度)、3D 打印机械臂及低成本 Poppy 机械臂等测试中,系统实现:
关节运动误差小于 3 度
指尖控制误差小于 4 毫米
可自适应环境动态变化
MIT 助理教授文森特・西茨曼(Vincent Sitzmann)表示:“视觉作为弹性传感器,为农场、工地等非结构化环境中的机器人应用开启新可能。”
CSAIL 主任丹妮拉・罗斯(Daniela Rus)补充道:“视觉反馈使系统建立自身运动动力学内部模型,在传统定位方法失效处实现自监督操作。”