量子位 03月15日
人大北邮等团队解视触觉感知统一难题,模型代码数据集全开源 | ICLR 2025
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中国人民大学团队提出AnyTouch框架,旨在解决机器人触觉感知的挑战。该框架通过动静结合的方式,融合静态触觉信息(如材质、形状)与动态触觉特征(如滑动、形变),学习统一的多传感器触觉表征。研究团队构建了配对的多传感器多模态触觉数据集TacQuad,并利用掩码自编码器和多模态对齐技术,提升模型对触觉细节和语义信息的理解。实验结果表明,AnyTouch在多个下游任务中表现优异,尤其在真实物体操纵任务中展现出强大的动态感知能力。

📊**TacQuad数据集**:构建了配对的多传感器多模态触觉数据集TacQuad,包含来自GelSight Mini、DIGIT、DuraGel和Tac3D四种传感器的细粒度和粗粒度数据,以及视觉图像和GPT-4o生成的文本描述,为多传感器触觉学习提供数据支撑。

🤖**AnyTouch框架**:提出了动静结合的多传感器统一触觉表征学习框架AnyTouch,通过掩码图像/视频建模捕捉像素级细节,并通过多模态对齐和跨传感器匹配学习传感器无关的语义级特征,从而获得适应多种触觉场景的通用表征。

🔍**多层级架构**:AnyTouch采用多层级架构,第一阶段关注像素级的触觉细节,利用掩码自编码器(MAE)技术训练模型捕捉细节,第二阶段学习传感器无关的语义级特征,通过触觉-视觉-文本多模态对齐,整合多传感器触觉数据,减少传感器之间的感知差异。

关注前沿科技 2025-03-14 19:23 北京

动静结合的多传感器统一触觉表征学习框架

人大团队 投稿
量子位 | 公众号 QbitAI

机器人怎样感知世界?

相比于“看得见”,“摸得着”能够提供更直接且细腻的物理反馈,有助于准确判断物体特性,还在精确操控和复杂操作中发挥关键作用。

长期以来,通过各种触觉传感器赋予机器人类似人类的触觉感知能力,始终是具身智能重要研究方向。其中,由于具有与人类皮肤相匹配的高分辨率,视触觉传感器展现出了巨大的潜力。

那么是否存在一个适用于多种传感器、多种任务的通用视触觉表征学习范式?

来自中国人民大学高瓴人工智能学院GeWu-Lab实验室、北京邮电大学和武汉科技大学最近的合作研究提出从动静结合的新视角建模统一的多传感器触觉表征空间,通过多层级的学习框架,有效融合静态触觉信息(如材质、形状)与动态触觉特征(如滑动、形变),从而获得适应包含真实世界操纵在内的丰富触觉场景的通用表征。

论文已被ICLR2025接收,并对数据集、模型和代码进行了全部开源。

本文第一作者冯若轩为中国人民大学二年级硕士生,主要研究方向为多模态具身智能,师从胡迪副教授。作者来自于中国人民大学GeWu-Lab,北京邮电大学以及武汉科技大学,其中方斌教授和胡迪副教授作为共同通讯

视触觉面临什么挑战?

即便具有那么多潜力,构建基于视触觉传感器的强大触觉感知系统仍面临诸多挑战。由于发展时间较短,视触觉传感器种类繁多且缺乏统一标准,不同的传感器在感知相同的触觉信息时存在一定差异。

这种异构性使得当前的视触觉数据采集和模型训练通常依赖于特定传感器,导致单一传感器模型的数据规模受限,难以涵盖丰富的触觉场景,从而制约了触觉感知系统的泛化能力和鲁棒性。

此外,人类的触觉感知是一个动态与静态信息交织的过程,能够从纹理、滑动和形变变化等多种信号精准地理解物体特性。这种对动态触觉细节的敏锐捕捉能力在精细机器操纵中同样至关重要,也是当前多传感器触觉感知模型所欠缺的。

本论文针对视触觉感知所面临的核心挑战,提出了一个配对的多传感器多模态触觉数据集TacQuad,为利用数据驱动方法显式整合多种触觉传感器奠定基础。

更进一步地,本文提出动静结合的多传感器统一触觉表征学习框架AnyTouch,为包含真实世界操纵的多种任务和多种视触觉传感器提供有效的触觉感知。

TacQuad:配对的多传感器多模态触觉数据集

想象一下,假如不同的照相机拍同一个物体,但由于镜头、光线、颜色处理方式等不同,最后的照片却各不相同——这会让AI很难直接理解它们其实是同一个物体。

类似地,不同的视触觉传感器使用的技术原理也略有不同,相当于“看世界的方式”各不相同,导致它们采集的数据很难直接迁移使用。究其根本,在于缺乏一个显式地配对多传感器数据,并允许模型从其他模态获取更全面的触觉知识、借助多模态数据弥合传感器差异的可靠触觉数据集。

图1 配对的多传感器多模态触觉数据集TacQuad

为了让AI更聪明地“摸清世界”,本工作采集了配对的多传感器多模态触觉数据集TacQuad,通过提供包含文本描述和视觉图像的配对多传感器数据,支持以数据驱动的方式构建统一的多传感器触觉表征空间,从而为这一问题提供一个更全面的解决方案(如图1所示)

为了确保数据的丰富性,团队精心挑选了四种触觉传感器:来自公开平台的GelSight Mini和DIGIT,实验室自制的DuraGel,以及能够感知力场的Tac3D。

然而,考虑到收集细粒度多传感器配对数据成本高昂,为扩大数据采集的规模,同时尽可能地保证数据的对齐质量,团队使用粗粒度和细粒度两种方法采集了两组多传感器配对数据:

在TacQuad数据集中,每次触觉接触都会同时记录来自第三视角的视觉图像,并由GPT-4o生成对应的触觉属性描述。

这样,AI不仅能“摸”到物体,还能“看到”并“理解”它的触感。

为进一步利用更多传感器的大量已有数据,本工作还利用GPT-4o对多个开源触觉数据集生成或扩展文本描述,让这些原本只包含传感器数据的数据集也拥有丰富的语言信息

AnyTouch:动静结合的多传感器统一触觉表征学习框架

在日常生活中,团队的触觉不仅仅是“摸一摸”那么简单,而是一个包含静态和动态过程的综合体验。比如,轻轻按压一块海绵可以感受到它的柔软(静态触觉),而用手指滑动还能感知它的纹理和弹性(动态触觉)

这两种感知方式相辅相成,让团队能够更准确地理解周围的物理世界并与之交互。受此启发,本工作提出了AnyTouch——一个动静结合的多传感器统一触觉表征学习框架,分别使用触觉图像和视频,从静态和动态感知结合的角度学习统一的多传感器触觉表征(如图2所示)

图2 动静结合的多传感器统一触觉表征学习框架AnyTouch

为了适应不同的触觉场景的感知需求,AnyTouch采用了多层级架构,分阶段提升模型的触觉感知能力。

在第一阶段中关注像素级的触觉细节,而第二阶段则学习传感器无关的语义级特征,使AI能更全面地理解和处理触觉信息:

本框架还使用通用传感器Token来整合并存储与各传感器相关的信息,从而在泛化到新传感器时最大限度地利用多传感器训练数据。

实验与分析

为探究每种传感器数据对下游任务的贡献,本工作将GelSight、GelSlim、DIGIT和GelSight Mini的数据整合到AnyTouch训练中,获得四种模型,并在四个下游任务中比较。

如表1所示,与未接触触觉数据的CLIP模型相比,使用GelSight数据的训练显著提升了模型在所有任务上的性能,表明触觉表征预训练对新传感器的迁移至关重要。将其他传感器的数据整合后,模型在三个未见数据集上的性能提升,特别是在未见传感器的数据集上表现更好,证明这些数据的知识能够迁移到其他触觉传感器。

表1 整合各触觉传感器数据对模型性能的影响

为验证AnyTouch是否能将来自不同传感器的相同触觉信息聚集在一起,本工作从TacQuad细粒度子集的30次触摸中抽取每种传感器的一个接触帧,并输入CLIP模型以及逐步引入掩码建模、多模态对齐和跨传感器匹配的AnyTouch模型进行对比可视化(见图3)

CLIP以及引入掩码建模后的模型难以辨别来自不同传感器的相同触觉信息,直接按传感器类型对样本进行聚类,这对于跨传感器泛化来说并不理想。加入多模态对齐后,表征开始基于触觉信息混合和聚类,但仍存在按传感器类型的聚类趋势。通过跨传感器匹配任务,来自不同传感器的触觉表征在共享空间中完全混合,能够明显地观察到表征根据触觉信息进行聚类,触觉表征逐渐从传感器依赖的特征转向更加通用的跨传感器信息。

图3 AnyTouch中各组件对多传感器表征空间的影响

为验证统一多传感器表征在迁移触觉知识到已见与未见传感器上的优势,本工作将 AnyTouch与现有的单传感器和多传感器模型,分别在已见与未见传感器的两个数据集上进行比较。

如表2、表3所示,AnyTouch在所有数据集上均优于现有方法,证明了其在静态感知能力上的优势。

表2(左)已见传感器数据集性能对比 表3(右)未见传感器数据集性能对比

为测试AnyTouch在真实物体操纵任务中的动态感知能力,本工作在细粒度倾倒任务上进行了实验。在此任务中,机械臂需依靠触觉反馈从含100克小钢珠的量筒中倒出60克,如图4所示。各模型在10次真实世界测试中的平均误差对比如表4所示。结果表明,从动静结合角度学习统一的多传感器表示对于完成包括现实世界任务在内的各种任务至关重要。

图4(左)真实世界倾倒任务示意图 表4(右)倾倒任务性能对比

本文从全新的动静结合角度构建统一的多传感器触觉表征空间,提出配对的多传感器多模态触觉数据集TacQuad以提供显式整合多传感器的数据支撑,并在此基础上提出动静结合的多传感器统一触觉表征学习框架,通过多层级的方式学习适用于各种任务的通用触觉表征。

团队表示,相信从静态与动态结合的角度学习统一的多传感器表征的方法能够为视触觉感知建立一个标准化的学习范式,并进一步激发多传感器表征学习的研究。

目前工作还在进一步拓展中,欢迎更多触觉设备的加入,共同构建并扩大触觉表征世界,如有兴趣请邮件联系dihu@ruc.edu.cn。

论文链接: https://arxiv.org/abs/2502.12191
项目主页: https://gewu-lab.github.io/AnyTouch/

—  —


学术投稿请于工作日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你



一键关注 ? 点亮星标

科技前沿进展每日见


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

触觉感知 多传感器融合 具身智能 机器学习 机器人
相关文章