36kr-科技 2024年11月04日
英伟达团队机器训练新方法,仅5次演示让机器生成1000个新demo,李飞飞高徒与徒孙联手出品
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达实验室提出了一种名为DexMimicGen的新方法,能够通过仅5次人类演示,生成1000个新的机器人训练数据。这种生成式数据训练出的机器人,在仿真环境中任务成功率高达97%,甚至超越了使用真人数据的效果。该方法解决了机器人领域数据收集的难题,预示着机器人数据和学习流程的未来将走向生成式。DexMimicGen由李飞飞的“徒孙”团队开发,利用数字孪生技术,将仿真数据迁移到现实机器人系统中,展现了强大的跨任务泛化能力和鲁棒性,为机器人学习领域带来了突破性进展。

🤖 **DexMimicGen:基于少量人类演示生成海量机器人训练数据** DexMimicGen的核心在于仅需5次人类演示,便能生成1000个新的机器人训练数据(DEMO)。这种生成式数据训练出的机器人,在仿真环境中表现出色,例如在整理抽屉任务中,成功率从0.7%提升到76%,在积木组装任务中,成功率从3.3%提升到80.7%,而在罐子分类任务中,成功率更是高达97.3%。该方法显著提升了机器人学习效率,并解决了机器人领域数据收集困难的瓶颈问题。DexMimicGen的出现,标志着机器人训练数据生成方式的革新,为机器人学习领域带来了新的可能性。DexMimicGen基于MimicGen系统进行改进和扩展,MimicGen的核心思想是将人类示范数据分割成以目标物体为中心的片段,并通过变换物体相对位置和姿态,在新环境中复现人类示范轨迹,从而实现自动化数据生成。DexMimicGen则在此基础上,针对双臂机器人灵巧操作任务做了改进和扩展,包括引入并行、协调、顺序三种子任务类型,设计了相应的执行机制,以及实现了“现实-模拟-现实”的框架。

🤝 **人类演示数据分割与子任务定义** 在DexMimicGen的工作流程中,首先需要采集和分割人类演示数据。研究人员通过佩戴XR头显远程控制机器人完成目标任务,并产生一小批示范数据。这些数据会被按照并行、协调、顺序三种子任务类型进行切分。并行子任务允许两臂独立执行,协调子任务要求两臂在关键时刻同步动作,而顺序子任务则规定了某些子任务必须在另一些子任务完成后才能执行。通过这种方式,机器人的每个手臂都会得到自己对应的片段集合。在数据生成阶段,DexMimicGen随机化模拟环境中物体的位置、姿态等数据,并随机选择一个人类示范作为参考。对于当前子任务,系统会计算示范片段与当前环境中关键物体位置和姿态的变换,并用该变换对参考片段中的机器人动作轨迹进行处理,以匹配新环境中的物体位置。生成变换后,DexMimicGen会维护每个手臂的动作队列,手指关节的运动则直接重放示范数据中的动作。整个过程中,系统不断检查任务是否成功完成,并记录成功的执行过程作为有效的演示数据。

🌐 **数字孪生技术:将仿真数据迁移到现实** DexMimicGen实现了“现实-模拟-现实”的框架,通过构建数字孪生,将DexMimicGen拓展到了实际机器人系统的应用。在模拟到现实的迁移过程中,作者使用DexMimicGen在数字孪生环境中生成的大规模演示数据,训练模仿学习策略。之后,对在数字孪生环境中评估训练得到的策略进行调优,以提高其泛化性能和鲁棒性,并迁移到实际机器人系统中。例如,在易拉罐分拣任务中,仅使用40个生成DEMO,成功率就达到了90%,而不使用生成数据时的成功率为零。这体现了DexMimicGen强大的跨任务泛化能力和鲁棒性。DexMimicGen的成功应用,证明了数字孪生技术在机器人学习领域的巨大潜力,为机器人技术在现实世界中的应用铺平了道路。通过构建数字孪生,可以有效降低机器人训练成本,提高机器人学习效率,并推动机器人技术在更多领域的应用。

👨‍🎓 **团队成员及背景** DexMimicGen的共同一作有三人,均是德克萨斯大学奥斯汀分校(UT奥斯汀)助理教授朱玉可(Yuke Zhu)的学生,且都是华人。他们分别是博士生Zhenyu Jiang、硕士生Yuqi Xie和博士生Kevin Lin,分别来自清华大学、上海交通大学和加州大学伯克利分校等知名高校。朱玉可本人也是英伟达的研究科学家,团队的其他负责人Ajay Mandlekar和范麟熙(Jim Fan)也都是李飞飞的学生。整个团队成员多为华人,体现了华人学者在机器人领域的重要贡献。这个团队的合作模式,也展现了高校与企业之间紧密的合作关系,有助于推动科研成果的转化和应用。DexMimicGen的成功,也离不开团队成员的协作和努力,他们的专业知识和经验为项目的顺利开展提供了保障。

人类只需要演示五次,就能让机器人学会一项复杂技能。

英伟达实验室,提出了机器人训练数据缺乏问题的新解决方案——DexMimicGen

五次演示之后,DexMimicGen就可以直接模仿出1000个新的demo。

而且可用性强,用这些新demo训练出的机器人,在仿真环境中的任务成功率可以高达97%,比用真人数据效果还要好。

参与此项目的英伟达科学家范麟熙(Jim Fan)认为,这种用机器训练机器的方式,解决了机器人领域最大的痛点(指数据收集)。

同时,Jim Fan还预言:

机器人数据的未来是生成式的,整个机器人学习流程的未来也将是生成式的。

值得一提的是,DexMimicGen三名共同一作都是李飞飞的“徒孙”,具体说是德克萨斯大学奥斯汀分校(UT奥斯汀)助理教授朱玉可(Yuke Zhu)的学生。

而且三人均为华人,目前都在英伟达研究院实习。

5次演示,生成1000条数据

如前所述,DexMimicGen可以仅根据人类的5次演示,生成1000个新DEMO。

在整个实验中,作者设置了9个场景,涵盖了3种机器人形态,共进行了60次演示,获得了21000多个生成DEMO。

在仿真环境当中,用DexMimicGen生成数据训练出的策略执行整理抽屉这一任务,成功率可达76%,而单纯使用人工数据只有0.7%。

对于积木组装任务,成功率也从3.3%提升到了80.7%。

成功率最高的任务是罐子分类,更是高达97.3%,只用人工数据的成功率同样只有0.7%。

整体来看,在仿真环境中,生成数据让机器人在作者设计的九类任务上的成功率均明显增加。

相比于baseline方法,用DexMimicGen生成的数据也更为有效。

迁移到真实环境之后,作者测试了易拉罐分拣的任务,结果仅用了40个生成DEMO,成功率就达到了90%,而不使用生成数据时的成功率为零。

除此之外,DexMimicGen还展现了跨任务的泛化能力,使训练出的策略在各种不同任务上表现良好。

针对初始状态分布变化,DexMimicGen也体现出了较强的鲁棒性,在更广泛的初始状态分布D1和D2上测试时,仍然能够拥有一定的成功率。

将仿真方法迁移到现实

DexMimicGen是由MimicGen改造而成,MimicGen也出自英伟达和UT奥斯汀的联合团队。

朱玉可和范麟熙都参与过MimicGen的工作,该成果发表于CoRL 2023。

MimicGen的核心思想,是将人类示范数据分割成以目标物体为中心的片段,然后通过变换物体相对位置和姿态,在新环境中复现人类示范轨迹,从而实现自动化数据生成

DexMimicGen则在MimicGen系统的基础上,针对双臂机器人灵巧操作任务做了改进和扩展,具体包括几个方面:

引入并行、协调、顺序三种子任务类型,以适应双臂灵巧操作任务的需求;

对应三种子任务类型,设计了异步执行、同步执行和顺序约束等机制,以实现双臂的独立动作、精密协同和特定顺序操作;

实现了“现实-模拟-现实”的框架,通过构建数字孪生,将DexMimicGen拓展到了实际机器人系统的应用。

工作流程上,DexMimicGen会首先对人类示范进行采集和分割。

研究人员通过佩戴XR头显,远程控制机器人完成目标任务,在这一过程中就会产生一小批示范数据,作者针对每个任务采集了5~10个人类示范样本。

这些人类示范样本会按照并行、协调、顺序三种子任务定义被切分成片段——

并行子任务允许两臂独立执行;

协调子任务要求两臂在关键时刻同步动作;

顺序子任务则规定了某些子任务必须在另一些子任务完成后才能执行。

总之,在示范数据被切分后,机器人的每个手臂会得到自己对应的片段集合。

在数据生成开始时,DexMimicGen随机化模拟环境中物体的位置、姿态等数据,并随机选择一个人类示范作为参考。

对于当前子任务,DexMimicGen会计算示范片段与当前环境中关键物体位置和姿态的变换。

之后用该变换对参考片段中的机器人动作轨迹进行处理,以使执行这一变换后的轨迹能够与新环境中物体位置匹配。

生成变换后,DexMimicGen会维护每个手臂的动作队列,手指关节的运动则直接重放示范数据中的动作。

在整个过程中,系统不断检查任务是否成功完成,如果一次执行成功完成了任务,则将执行过程记录下来作为有效的演示数据,失败则将数据丢弃。

之后就是将生成过程不断迭代,直到获得足够量的演示数据。

收集好数据后,作者用DexMimicGen生成的演示数据训练模仿学习策略,策略的输入为RGB相机图像,输出为机器人动作。

最后是模拟到现实的迁移,同样地,作者使用DexMimicGen在数字孪生环境中生成的大规模演示数据,训练模仿学习策略。

之后作者对在数字孪生环境中评估训练得到的策略进行调优,以提高其泛化性能和鲁棒性,并迁移到实际机器人系统中。

作者简介

DexMimicGen的共同一作有三人,都是UT奥斯汀的华人学生。

并且三人均出自李飞飞的学生、浙大校友朱玉可(Yuke Zhu)助理教授门下,他们分别是:

博士生Zhenyu Jiang,本科就读于清华,2020年进入UT奥斯汀,预计将于明年毕业;

硕士生Yuqi Xie(谢雨齐),本科是上海交大和美国密歇根大学联培,预计毕业时间也是明年;

博士生Kevin Lin,本科和硕士分别就读于UC伯克利和斯坦福,今年加入朱玉可课题组读博。

朱玉可的另一重身份是英伟达的研究科学家,团队的另外两名负责人也都在英伟达。

他们分别是Ajay Mandlekar和范麟熙(Jim Fan),也都是李飞飞的学生,Mandlekar是整个DexMimicGen项目组中唯一的非华人。

另外,Zhenjia Xu和Weikang Wan两名华人学者对此项目亦有贡献,整个团队的分工如下:

中文为机翻,仅供参考

项目主页:

https://dexmimicgen.github.io/

论文地址:

https://arxiv.org/abs/2410.24185

参考链接:

[1]https://x.com/SteveTod1998/status/1852365700372832707

[2]https://x.com/DrJimFan/status/1852383627738239324

本文来自微信公众号“量子位”,作者:克雷西,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

机器人学习 DexMimicGen 生成式数据 模仿学习 数字孪生
相关文章