本工作于 2024 年 11 月完成,目前已经被 CVPR 2025 接收并评选为 Highlight,第一作者为龙宇星,导师为北京大学董豪老师。课题组致力于研究统一的物体表征操作研究,以实现具有可解释性和泛化能力的物体操作策略。
自 19 世纪末爱迪生发明电灯以来,电器的发展和革新不断提升人类的生活水平。如今,电器已经走进千家万户,成为我们的得力助手,与我们的生活密不可分。赋予机器人使用家电的能力具有重要的学术价值和广阔的应用前景。
目前在机器人操作领域,一般物体(如刚体和铰接物体)的操作研究已经取得一定进展,但是现有操作策略主要执行单步原子操作。对于设备(如家电)而言,必须按照正确顺序和方式进行多步操作,才能正确完成高层次任务。因此,参照说明书进行长程操作规划对于家电操作而言十分必要。
然而,受限于以下三大挑战,基于说明书的长程家电操作探索几乎处于空白状态:
缺乏研究可用的家电说明书和配套数字资产:互联网上的家用电器说明书受到公司的版权保护,难以用于学术研究。此外,这些真实说明书没有对应的家电资产模型,无法满足仿真评测需求。缺乏洞察家电操作问题的评测任务:现有的家电操作评测任务仍然主要集中在对于原子动作能力的评估,未充分考虑基于说明书的长程家电操作中存在的识别,规划和执行等复杂问题。缺乏基于说明书的操作规划模型:当前的机器人家电操作模型主要实现单一的原子动作,尚未具备结合说明书内容和高层任务指令进行长程操作规划的能力。
为应对上述挑战,北京大学联合智元机器人团队提出了全新的家用电器操作评测基准 CheckManual,这是首个专为研究基于说明书的家电操作而设计的评测框架。
论文标题:CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation论文链接:http://arxiv.org/abs/2506.09343项目主页:https://sites.google.com/view/checkmanualGitHub 链接:https://github.com/LYX0501/CheckManual
CheckManual 具有以下三个创新性优势:
(1)图片和文字内容拟真的家电说明书和多样的数字资产
通过广泛调研真实说明书图文内容和格式,构造超过 1100 份拟真的家用电器说明书。说明书中含有部位介绍图,操作说明图,任务表格等丰富内容,涵盖 11 类共计 182 种生活中常见家电的数字资产。
(2)契合实际要求的一系列全新评测任务
针对基于说明书的家电操作任务需求,设计三种不同导向的评测任务,全方位评测模型在说明书理解,操作规划,以及动作执行上的能力。
(3)首个基于说明书的操作规划模型 ManualPlan
提出第一个基于说明书的操作规划模型,能够理解任务指令中关键信息,解析说明书内容,并规划部件层次的具体操作。
CheckManual 介绍
(一)家电说明书自动化生成和人工校验
(1)准备阶段(Figure 1 左):首先从互联网收集 110 份来自不同国家和地区的电器说明书,分析发现说明书中功能性部件通常通过点 - 线格式标注,操作方法导则通过纯文本、多模态图示(包括部件放大图和部位移动示意图)等多种方式进行介绍。此外,从 PartNet-Mobility 数据集筛选总共包括 11 类共计 182 个家电 CAD 模型,包括洗衣机,冰箱,微波炉等常见家用电器,用于说明书生成。
(2)说明书素材创造阶段(Figure 1 中):根据规则自动生成关于家用电器的部位点 - 线注释图,并通过多模态大模型根据家电的类别和外观特点编写每个部位的功能和状态类型。在此基础上,进一步采用大语言模型编写家用电器支持的操作任务和详细的引导步骤。为了保证大模型生成内容正确合理,对所有生成结果都进行仔细的人工检验,并对不合理的部分进行重编写。此外,自动化生成说明书封面,操作方法说明,警告标识等内容作为说明书的图片内容。
(3)说明书生成阶段(Figure 1 右):所有先前阶段生成的文字内容和图片链接都通过大语言模型整合成格式多样的 LaTex 代码,这些代码进一步被编译成 PDF 格式的家电说明书。在 Figure 2 中展示来自 CheckManual 数据集的家电说明书示例。
根据统计分析,CheckManual 数据集中共包含 1107 份不同内容的说明书,涵盖 2211 个不同的可操作部位,1464 个关于家用电器的操作任务。该数据规模和多样性可以有效支撑基于说明书的家用电器操作任务评测需求。
(二)CheckManual 仿真环境评测任务
基于 CheckManual 数据集,团队提出一系列针对基于说明书的家用电器操作规划和执行的评测任务,它们分别是说明书 - CAD 模型 - 家电对齐的操作规划任务,基于说明书和 CAD 模型的操作执行任务以及完全基于说明书的操作执行任务。这些任务的可用输入和预测目标如 Table 1 所示。关于任务详细定义和评测指标介绍请参考论文。
(三)基于说明书的家电操作规划模型 ManualPlan 和动作执行
针对基于说明书的家用电器操作任务,团队设计 ManualPlan 模型。该模型首先采用 OCR 和多模态大模型对说明书文字内容和视觉内容进行提取和解析,然后 ManualPlan 根据任务指令规划出详细的操作步骤。为了便于后续操作执行,模型进一步根据说明书示意图,将电器部件名称和相机观测视野中的部件对齐。由此模型可以预测每个部件的操作顺序和操作方式。
ManualPlan 的预测结果既可以控制基于家电 CAD 模型的操作原子动作,也可以控制如 VoxPoser 这样的开放词汇操作模型来实现与家用电器的真实交互,从而完成家用电器操作任务。
团队分别在 CheckManual 数据集上评测 ManualPlan 的操作规划能力,以及基于原子技能和开放词汇操作模型 VoxPoser 的家用电器操作执行能力。Tabel 2 中 Track 1 的评测结果按照「对齐成功率 / 任务规划成功率」呈现,Track 2 和 3 的结果按照「完成率 / 成功率」呈现。
从实验结果中可以观察到,说明书有效提升操作规划的成功率,但长程家电操作对现有 - 原子动作和开放词汇操作模型而言仍然十分有挑战性。长程操作中的错误累积使得家用电器操作成功率仍然有巨大的提升空间,值得未来更加深入的研究。
以下展示 ManualPlan 在真实世界中操控家电完成长程任务的效果。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com
文章原文