6月26日上午,第十七期 AIR-SUN 少年科学家论坛如期举行。本次活动有幸邀请到上海交通大学计算机科学与技术专业的本科生卫振宇,为AIR-SUN的老师和同学们做了题为《D(R, O) Grasp:全新交互式表征重塑跨智能体灵巧手抓取》的精彩报告。
讲者介绍:

卫振宇,上海交通大学计算机科学与技术专业本科生,未来前往北卡教堂山(UNC)攻读计算机博士,指导老师为丁明宇教授。研究方向为机器人操作任务,发表过多篇论文,包括ICRA和TPAMI等顶级会议/期刊,同时他也是ICRA,IROS,ICCV等顶会审稿人。曾获ICRA 2025最佳机器人操作和运动论文奖、CoRL 2024 Workshop最佳论文奖、ICRA 2025 Workshop最佳论文奖、上海市优秀毕业生以及十余项奖学金等荣誉。
报告内容:

本次报告中,卫振宇重点介绍了其在ICRA 2025 的最新工作:D(R,O) Grasp:一种面向跨智能体灵巧抓取的机器人与物体交互统一表示。该方法通过创新性地建模机器人手与物体在抓取姿态下的交互关系,成功实现了对多种机器人手型与物体几何形状的高度泛化能力,展示了在复杂环境中的强适应性,为灵巧抓取技术的未来开辟了全新的方向。该论文在 CoRL 2024 MAPoDeL Workshop 中获得了 Best Robotics Paper Award并在ICRA 2025荣获“Robot Manipulation and Locomotion”领域最佳论文奖。
一、引言:

灵巧抓取是机器人完成复杂操作任务的关键,但由于灵巧手的高自由度及稳定抓取所需的复杂交互,任务挑战巨大。目前基于深度学习的方法主要分为机器人中心 (robot-centric) 和物体中心 (object-centric) 两类。
机器人中心方法(例如手腕姿态和关节角度)直接将观测映射为控制命令,推理速度快,但样本效率低。由于映射依赖特定机器人结构,难以泛化到不同手型。
物体中心方法(例如接触点和接触热力图)通过描述物体几何与接触信息,泛化能力强,适应不同物体和手型。但却需额外的优化步骤(例如逆运动学求解)将预测结果转化为运动学可行的抓取姿态,计算复杂且耗时。

为解决上述问题,讲者团队提出了一种统一的表示方式 D(R,O),该方法捕捉机械手运动学与物体几何的交互关系,将机械手的结构信息与物体几何结合在一个交互矩阵中,能够直接预测运动学合法且稳定的抓取姿态。通过多边测量法推导每个手部组件的6D姿态并获取最终关节配置,同时引入配置不变的预训练方法以提升跨形体的泛化能力,为灵巧抓取提供高效且鲁棒的解决方案。
二、方法:

该方法输入物体的点云和机械手的URDF文件,目标是生成灵巧且多样化的抓取姿态。整体流程包括三大阶段:首先,分别设计了点云编码器来提取机器人和物体的几何特征,其中手部编码器通过一种配置不变的对比学习方法进行预训练,使其能识别同一手部在不同关节配置下的几何对应关系;随后,借助CVAE预测机器人手和物体之间的点到点距离矩阵D(R, O),来隐式表达抓取姿态;最后,从D(R, O)推导出每个手部连杆的6D位姿,并通过优化过程计算最终的关节值。
(1)基于对比学习的配置不变预训练
学习灵巧抓取需要理解机械手与物体的空间关系,目标是将机械手的特定配置与物体匹配。然而,由于不同配置下机械手整体姿态变化显著,模型难以捕捉局部几何特征的一致性。为此,讲者提出了一种配置不变的预训练方法,通过训练神经网络对齐不同配置下的几何特征,促进匹配并提升多姿态适应能力。

在采样并存储机械手各link的点云数据后,基于前向运动学模型,可为任意配置计算对应点云,确保不同配置下点云的一致性。在预训练中,规范配置(如张开手姿态)和抓取配置的点云分别输入机器人编码器网络提取逐点特征。通过点间欧氏距离加权正负点对关系,进行逐点对比学习,从而对齐不同配置下编码器的几何特征,简化机械手与物体匹配难度,提高模型的泛化能力。
(2)D(R,O)表征预测

D(R,O)表征是一个机械手点云和物体点云之间相对距离矩阵。首先使用两个相同结构的编码器分别提取机械手点云和物体点云的几何特征。在此过程中,机械手的编码器使用预训练网络并在训练中保持冻结,为增强机器人和物体之间的语义对齐性,引入两个多头交叉注意力机制将原始特征映射为相关性特征。为实现跨本体抓取的多样性,将机械手与物体在抓取姿态下的点云拼接后输入CVAE编码器,利用相关性点云特征作为条件生成隐变量。随后,将隐变量与每个点特征拼接,得到机械手和物体的综合特征。
对于机械手某点与物体某点的综合特征,采用结合MLP网络和softplus函数的核函数计算相对距离,确保结果具有对称性和非负性,最终通过对所有点对进行计算,得到完整的 D(R,O)表征。
(3)D(R, O)表征生成抓取

给定预测的D(R,O)表征,由于物体点云已知,可利用机械手点云与物体点云之间的相对距离关系通过多点定位技术计算出隐式描述的机器人手点云。本质上,这是一个最小二乘优化问题。这一问题已证明具有闭式解,可快速计算机器人手点云。在三维空间中,确定一个点的位置仅需四个相对距离,而D(R,O)表征提供了上百个距离。相比直接预测点云,这种表征对神经网络预测误差更加鲁棒。
得到机器人手点云后,为求解相应关节值,将逆运动学分为两步:首先,使用 SVD 分解从点云计算出每个link的 6D 姿态;然后,以这些 6D 姿态为优化目标,利用雅克比矩阵迭代更新初始关节值,最终得到期望抓取姿态的关节值。
这一优化过程约束简单,即便是 ShadowHand 等高自由度灵巧手,也可在不到 1 秒内完成优化,大幅提升抓取生成速度。
三、实验结果:

在实验中,讲者评估了抓取成功率、姿态多样性及生成效率三个指标。抓取结果在 10 个全新物体上进行了测试,使用 Barrett、Allegro 和 ShadowHand 三款灵巧手进行比较。综合来看,讲者的方法在所有灵巧手上都显著超越了现有方法的成功率,验证了方法的有效性。同时,生成速度亦大幅优于其他方法,这对灵巧操控任务至关重要。与基准方法相比,讲者的方法生成的抓取姿态更自然且鲁棒,而基准方法易产生不自然、穿透严重且稳定性差的抓取。

在真实环境中,讲者使用xArm6机器臂和LeapHand等四款机械手进行了实机测试,平均抓取成功率达85+%。
四、总结:

最后,讲者对本次报告进行了总结。他分享了目前基于D(R,O)已经延伸出的其他工作,包括引入人手的交互信息实现功能性抓取以及利用交互式表征来提取灵巧手和物体的特征。在未来工作方面,讲者指出可从堆放场景、功能性抓取、可形变物体以及动态物体操作等角度来进一步拓展。
内容中包含的图片若涉及版权问题,请及时与我们联系删除