面向以物体为中心的机器人操作的具身学习是具身智能中一个快速发展且充满挑战的领域。它对于推动下一代智能机器人的发展至关重要,并于近年来引起了极大的关注。与数据驱动的机器学习方法不同,具身学习侧重于机器人通过与环境的物理交互和感知反馈进行学习,这使得它特别适用于机器人操作任务。香港理工大学周立培团队联合清华大学、香港中文大学对该领域的最新进展进行了全面的综述,并将现有工作分为三个主要分支:1) 具身感知学习,旨在通过各种数据表示预测物体位姿(pose)和可供性(affordance);2) 具身策略学习,专注于利用强化学习和模仿学习等方法生成最优的机器人决策;3) 具身任务导向学习,旨在根据物体抓取和操作中不同任务的特点来优化机器人的性能。此外,本文还概述和讨论了公共数据集、评估指标、代表性应用、当前面临的挑战以及未来潜在的研究方向。

本综述相关的项目主页为:

https://github.com/RayYoh/OCRM_survey

相关专题:

AI最前沿 | 特约专题: 具身智能

图片来自Springer

全文下载:

A Survey of Embodied Learning for Object-centric Robotic Manipulation

Ying Zheng, Lei Yao, Yuejiao Su, Yi Zhang, Yi Wang, Sicheng Zhao, Yiyi Zhang & Lap-Pui Chau

https://link.springer.com/article/10.1007/s11633-025-1542-8

相关专题:

AI最前沿 | 特约专题: 具身智能

全文导读

在过去的十年间,以深度学习为核心的机器学习研究取得了显著进展,彻底改变了计算机视觉和自然语言处理等各种应用。不同于传统机器学习方法仅依赖预先构建的数据集进行模式识别和预测,作为具身智能基石的具身学习,旨在赋予智能体环境感知和决策的能力。它能够通过与环境的物理交互以及来自传感器的反馈进行学习,从而使机器人能够适应新情况。它强调了机器人的具身性(embodiment)以及通过物理交互和实践经验获取知识的重要性。它的数据来源十分广泛,包括传感器输入、机器人躯体动作和即时的环境反馈。具身学习机制是高度动态的,通过实时交互和反馈循环持续改进行为和操作策略。具身学习在机器人学中至关重要,因为它赋予机器人更强的环境适应性,使其能够应对变化的条件并执行更复杂和艰巨的任务。

当前学术界已经提出了大量的具身学习方法,而本综述则主要聚焦于面向以物体为中心的机器人操作任务。该任务的输入是从传感器收集的数据,输出是供机器人执行操作任务的策略和控制信号。其目标是使机器人能够高效、自主地执行各种以物体为中心的操作任务,同时增强其在不同环境和任务中的通用性和灵活性。由于物体和操作任务的多样性、环境的复杂性和不确定性,以及实际应用中的噪声、遮挡和实时性等挑战,该任务极具挑战性。

图 1(a) 展示了一个典型的机器人操作系统。该系统包含一个配备摄像头等传感器和夹爪等末端执行器(end-effector)的机械臂,使其能够操作各种物体。该系统的智能性围绕三个关键方面展开,对应于图 1(b) 中所示的三种具身学习方法:1) 先进的感知能力,涉及利用不同传感器捕获的数据来理解目标物体和外部环境;2) 精确的策略生成,需要分析感知到的信息以做出最优决策;3) 任务导向性,通过优化操作执行过程以保证系统能够适应特定任务。

 图 1 机器人操作系统示意图(左)及面向以物体为中心的机器人操作的具身学习方法分类(右)。

近年来,学术界围绕上述三个关键方面展开了广泛的研究,特别是随着大语言模型(LLMs)、神经辐射场(NeRFs)、扩散模型(diffusion models)和3D高斯泼溅(3D Gaussian splatting)等技术的蓬勃发展,催生了许多创新性解决方案。然而,针对该前沿领域的系统性综述仍显匮乏。本综述旨在系统地回顾前沿进展,总结遇到的挑战以及未来的研究方向。

· 本文作者 ·

全文下载:

A Survey of Embodied Learning for Object-centric Robotic Manipulation

Ying Zheng, Lei Yao, Yuejiao Su, Yi Zhang, Yi Wang, Sicheng Zhao, Yiyi Zhang & Lap-Pui Chau

https://link.springer.com/article/10.1007/s11633-025-1542-8

BibTex:

@Article {MIR-2024-09-411,

author={ Ying Zheng, Lei Yao, Yuejiao Su, Yi Zhang, Yi Wang, Sicheng Zhao, Yiyi Zhang, Lap-Pui Chau },

journal={Machine Intelligence Research},

title={A Survey of Embodied Learning for Object-centric Robotic Manipulation},

year={2025},

volume={22},

issue={4},

pages={588-626},

doi={10.1007/s11633-025-1542-8}}

特别感谢本文第一作者郑影博士对以上内容的审阅和修改!
纸刊免费寄送
Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务,如您对本篇文章感兴趣,请点击下方链接填写收件地址,编辑部将尽快为您免费寄送纸版全文!

说明:如遇特殊原因无法寄达的,将推迟邮寄时间,咨询电话010-82544737

收件信息登记:

https://www.wjx.cn‍/vm/eIyI‍AAI.aspx#  

关于Machine Intelligence Research

Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录,入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区,最佳排名挺进Top 4%,2023年CiteScore分值继续跻身Q1区。2024年获得首个影响因子(IF) 6.4,位列人工智能及自动化&控制系统两个领域JCR Q1区;2025年发布的最新影响因子达8.7,继续跻身JCR Q1区,最佳排名进入全球第6名;2025年一举进入中科院期刊分区表计算机科学二区。

往期目录
2025年第4期 | 特约专题: 具身智能
2025年第3期 | 大语言模型、医学图像分割、图像阴影去除、写作风格变化检测......
2025年第2期 | 常识知识获取、图因子分解机、横向联邦学习、分层强化学习...
2025年第1期 | 机器视觉、机器人、神经网络、反事实学习、小样本信息网络...
2024年第6期 | 图神经网络,卷积神经网络,生物识别技术...
2024年第5期 | 大语言模型,无人系统,统一分类与拒识...
2024年第4期 | 特约专题: 多模态表征学习
2024年第3期 | 分布式深度强化学习,知识图谱,推荐系统,3D视觉,联邦学习...
2024年第2期 | 大语言模型、零信任架构、常识知识推理、肿瘤自动检测和定位...
2024年第1期 | 特约专题: AI for Art
2023年第6期 | 影像组学、机器学习、图像盲去噪、深度估计...
2023年第5期 | 生成式人工智能系统、智能网联汽车、毫秒级人脸检测器、个性化联邦学习框架... (机器智能研究MIR)
2023年第4期 | 大规模多模态预训练模型、机器翻译、联邦学习......
2023年第3期 | 人机对抗智能、边缘智能、掩码图像重建、强化学习... 
2023年第2期 · 特约专题 | 大规模预训练: 数据、模型和微调
2023年第1期 | 类脑智能机器人、联邦学习、视觉-语言预训练、伪装目标检测... 
好文推荐
清华大学朱军团队 | DPM-Solver++:用于扩散概率模型引导采样的快速求解器
南航张道强团队 | 综述:基于脑电信号与机器学习的注意力检测研究
可信图神经网络的全面综述:隐私性、鲁棒性、公平性和可解释性
哈工大江俊君团队 | SCNet:利用全1X1卷积实现轻量图像超分辨率
下载量TOP好文 | 人工智能领域高下载文章集锦(2023-2024年)
自动化所刘成林团队 | 统一分类与拒识: 一种一对多框架
上海交大张拳石团队 | 综述: 基于博弈交互理论的神经网络可解释性研究
专题好文 | 再思考人群计数中的全局上下文
专题好文 | Luc Van Gool团队: 基于分层注意力的视觉Transformer
浙江大学孔祥维团队 | 综述: 迈向真正以人为本的XAI
澳大利亚国立大学Nick Barnes团队 | 对息肉分割的再思考: 从分布外视角展开
前沿观点 | Segment Anything并非一直完美: SAM模型在不同真实场景中的应用调查
精选好文 | 推荐系统的波纹知识图谱卷积网络
复旦邱锡鹏团队 | MOSS: 一个开源的对话式大语言模型
自动化所黄凯奇团队 | 分布式深度强化学习:综述与多玩家多智能体学习工具箱
约翰霍普金斯大学Alan Yuille团队 | 从时序和高维数据中定位肿瘤的弱标注方法
专题综述 | 大语言模型中的知识生命周期
精选综述 | 零信任架构的自动化和编排: 潜在解决方案与挑战
欧洲科学院院士蒋田仔团队 | 脑成像数据的多模态融合: 方法与应用
金耀初团队&郑锋团队 | 综述: 深度工业图像异常检测
专题好文 | 创新视听内容的联合创作: 计算机艺术面临的新挑战
综述 | 清华张学工教授: 肺癌影像组学中的机器学习
哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计
Luc Van Gool团队 | 通过Swin-Conv-UNet和数据合成实现实用图像盲去噪
贺威团队&王耀南院士团队 | 基于动态运动基元的机器人技能学习
乔红院士团队 | 类脑智能机器人:理论分析与系统应用 (机器智能研究MIR)
南科大于仕琪团队 | YuNet:一个速度为毫秒级的人脸检测器
上海交大严骏驰团队 | 综述: 求解布尔可满足性问题(SAT)的机器学习方法
西电公茂果团队 | 综述: 多模态数据的联邦学习
高文院士团队 | 综述: 大规模多模态预训练模型
前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究
港中文黄锦辉团队 | 综述: 任务型对话对话策略学习的强化学习方法
南航张道强教授团队 | 综述:用于脑影像基因组学的机器学习方法
ETHZ团队 | 一种基于深度梯度学习的高效伪装目标检测方法 (机器智能研究MIR)
MIR资讯
挺进Q1区前10名!MIR首个影响因子发布
喜报 | MIR 首次入选中科院期刊分区表计算机科学类二区
2025年 AI领域国际学术会议参考列表
致谢审稿人 | Machine Intelligence Research
MIR 2024年度优秀编委名单
喜报!MIR入选中国科技期刊卓越行动计划二期项目
专题征稿 | 生成式人工智能的安全与伦理
专题征稿 | Special Issue on Subtle Visual Computing
特别提醒!请认准MIR官方渠道,谨防受骗
前进20名!MIR再度跻身国际影响力TOP期刊榜单
喜报 | MIR入选图像图形领域 T2级 “知名期刊”!
喜报 | MIR被 ESCI 收录!
喜报 | MIR 被 EI 与 Scopus 数据库收录

内容中包含的图片若涉及版权问题,请及时与我们联系删除