新智元 2024年11月04日
Jim Fan全华人团队HOVER问世,1.5M小模型让机器人获「潜意识」!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

来自英伟达、CMU、UC伯克利等团队提出的HOVER(Humanoid Versatile Controller),是一个人形机器人通用的全身控制器。它通过模仿人类运动,将多种控制模式整合为一个统一的策略,让机器人能够像人类一样进行行走、保持平衡、操作物体等动作。HOVER仅用1.5M参数模型就能实现这一目标,解决了传统方法中需要为每种任务单独设计控制策略的问题,提高了人形机器人的控制效率和灵活性。这项研究的关键在于将全身运动的动作模仿作为多种控制模式的共同抽象,并利用策略蒸馏和DAgger算法将人类运动技能转移到HOVER策略中,最终实现了在不同控制模式之间无缝切换,并支持机器人应对各种任务需求。

🤖 **HOVER控制器:实现人形机器人全身控制的通用策略**:HOVER通过整合多种控制模式(运动学位置跟踪、局部关节角度跟踪、根追踪等),构建了一个能够适应导航、行走、桌面操作等多种任务的统一控制器。传统方法通常为每种任务单独设计控制策略,导致开发过程重复且耗时,而HOVER则解决了这一问题,提高了人形机器人的多功能性和控制效率。它能够在不同控制模式之间无缝切换,例如,在行走时使用根速度跟踪,在操作物体时使用关节角度跟踪,实现了更灵活、更类人的运动控制。HOVER的创新之处在于将全身运动的动作模仿作为多种控制模式的共同抽象,并利用策略蒸馏和DAgger算法将人类运动技能转移到HOVER策略中,使其能够学习如何协调人形机器人的电机以支持各种运动和操作。

🚶 **Oracle策略:模仿人类运动的基石**:在训练HOVER策略之前,研究人员首先通过大量人类运动数据训练了一个名为Oracle的策略。Oracle策略能够模仿人类的全身运动,包括状态空间设计、奖励系统和域随机化。状态空间包含机器人身体的刚体位置、姿态、速度和动作历史,以及目标状态,为机器人提供详细的运动目标。奖励系统则包含惩罚、正则化和任务奖励,确保机器人能够有效执行目标运动并减少误差。域随机化则通过随机化模拟环境中的物理参数,提高模型在现实世界中的泛化能力。Oracle策略的训练为HOVER提供了模仿人类运动的基准,为其学习多种控制模式奠定了基础。

🔄 **策略蒸馏与DAgger算法:将人类技能转移到HOVER**:在Oracle策略训练完成后,研究人员使用策略蒸馏和DAgger算法将Oracle策略中的技能转移到HOVER策略中。DAgger是一种监督学习方法,通过不断地将Oracle策略的动作作为目标,让HOVER策略逐渐与之对齐,从而学习到Oracle策略中的运动技能。同时,HOVER使用特定模式和稀疏性屏蔽来生成不同的任务指令模式,并通过这些屏蔽激活不同的指令空间组件,从而支持多模式控制。例如,在行走时可以选择性地跟踪根速度,在操作物体时可以选择性地跟踪关节角度,实现了灵活的控制。这个过程的核心是将Oracle策略的优点有效地转移到HOVER策略中,使其能够支持多种控制模式的无缝切换,并实现类人的运动控制。

新智元 2024-11-04 13:06 北京



  新智元报道  

编辑:静音

【新智元导读】来自英伟达、CMU、UC伯克利等的全华人团队提出一个全新的人形机器人通用的全身控制器HOVER,仅用一个1.5M参数模型就可以控制人形机器人的身体。人形机器人的运动和操作之前只是外表看起来类人,现在有了HOVER,连底层运动逻辑都可以类人了!


1.5M参数模型就可以控制人形机器人的身体?!

英伟达高级科学家Jim Fan表示,并不是每个基础模型都需要规模庞大。我们训练了一个拥有150万参数的神经网络来控制人形机器人的身体。

来自英伟达、CMU、UC伯克利等团队提出了HOVER(Humanoid Versatile Controller),一个人形机器人通用的全身控制器。

对于人类来说,行走、保持平衡、将手臂和腿移动到期望的位置都需要大量的潜意识处理。

相应地,对于人形机器人来说,实现全身控制需要适应多种任务,比如导航、行走和桌面操作。

每种任务都需要不同的控制模式。例如,导航依赖于根速度(root velocity)或位置追踪,而桌面操作则主要关注上半身关节角度的跟踪。

现有的方法通常针对特定任务设计独立策略,这不仅使机器人开发过程重复且耗时,还限制了最终全身控制器的多功能性。

例如,使用根速度跟踪(root velocity tracking)在不平地形上进行两足行走的机器人,在需要精确双臂操作的任务中会遇到困难,因为这些任务可能需要关节角度或末端执行器跟踪。

所有这些运动控制模式都应用于同一个硬件平台,自然会引出一个问题:能否创建一个支持所有控制模式的统一控制器,以结合每种模式的优势?

这并非一个简单的挑战,因为每种模式在不同的指令空间内运行,直接集成并不可行。

然而,尽管控制接口有所不同,其底层运动目标往往是一致的:即实现稳定、类人的运动,以满足人形机器人的控制需求。

由此,Jim Fan团队提出一个关键见解:全身运动的动作模仿可以作为这些任务的共同抽象,为学习多种全身控制模式提供通用的运动技能。

在此基础之上,他们提出了HOVER(Humanoid Versatile Controller,人形通用控制器),这是一个多模式策略蒸馏框架,能够将不同的控制模式整合为一个统一的策略。

论文地址:https://arxiv.org/abs/2410.21229

HOVER支持在各控制模式之间的无缝切换,同时保留每种模式的独特优势,为人形机器人在广泛的模式下提供了一种稳健且可扩展的控制解决方案。

也就是说,Jim Fan团队在HOVER中捕捉到了一种和人类相似的「潜意识」,这种「潜意识」能够学习如何协调人形机器人的电机以支持各种运动和操作。

人形机器人的运动和操作之前只是外表看起来类人,现在有了HOVER,连底层运动逻辑都可以类人了!

HOVER能够切实地消除为每个控制模式单独重新训练策略的需求,该方法提高了未来人形机器人应用的效率和灵活性。

相比之下,HOVER支持所有的控制模式

问题定义与分析

Jin Fan团队将此问题表述为一个针对人形机器人控制的目标条件强化学习(RL)任务,并进行了人形机器人控制的指令空间设计。

指令空间包括两个主要控制区域——上半身和下半身控制——并且整合了三种不同的控制模式:

1. 运动学位置跟踪:机器人关键刚体点的目标三维位置。

2. 局部关节角度跟踪:每个机器人马达的目标关节角度。

3. 根追踪:目标根速度、高度和姿态,由横滚、俯仰和偏航角指定。

高亮的方框表示正在被跟踪的活动指令,而右侧的虚线框所示的屏蔽机制可以选择性地激活不同的指令空间,以适应各种任务需求

训练过程

「Oracle」策略

在训练HOVER策略之前,首先通过大量人类运动数据训练一个「Oracle」策略,使其能够模仿人类的全身运动。

这一过程包括设计状态空间、奖励系统以及应用域随机化来支持从仿真到现实的转换。

状态空间设计:Oracle策略的状态包括机器人身体的刚体位置、姿态、速度和上一时刻的动作历史。同时引入目标状态,用来定义参考姿态和当前状态的差异,为机器人提供详细的运动目标。

奖励设计:奖励分为三部分:惩罚、正则化以及任务奖励。具体权重和细节见下列表格,用以确保机器人能够有效地执行目标运动并减少误差。

域随机化:为了使仿真环境中学到的策略能够成功转移到现实中,对模拟环境中的物理参数进行随机化,以提高模型在现实世界中的泛化能力。

策略蒸馏与DAgger算法的应用

在训练Oracle策略后,使用「蒸馏」过程将Oracle策略中的技能转移到HOVER策略中,以使其能够实现多模式控制。

这个过程通过DAgger算法完成,该算法是一种监督学习方法,用于使学生策略的动作逐渐与Oracle策略对齐。

任务指令屏蔽:HOVER使用特定模式和稀疏性屏蔽来生成不同的任务指令模式,并通过这些屏蔽激活不同的指令空间组件,从而支持多模式控制。HOVER策略能够在上半身和下半身的控制中选择性地跟踪某些关节和运动目标。

动作对齐与优化:在每个时间步,学生策略从Oracle策略中获取目标动作,通过最小化目标动作和当前动作的差距来更新自身,从而优化策略的表现。此过程的核心是将Oracle策略的优点有效地转移到HOVER策略中,使其能够支持多种控制模式的无缝切换。

实验结果

实验主要围绕3个问题展开:

Q1:HOVER作为一种通用策略,能否在特定指令配置下表现优于其他策略?

Q2:HOVER能否优于其他多模式人形机器人控制器的训练方法?

Q3:HOVER能否迁移到真实硬件上并执行多样的多模式控制?

A1:与特定控制模式的比较

与已有研究工作中特定控制模式策略的比较

Jim Fan团队将HOVER策略在不同控制模式下的表现与相应的特定策略进行了比较。

例如,HOVER在ExBody模式下的表现通过固定屏蔽来匹配ExBody模式,并在整个数据集Qˆ上进行评估。

HOVER在各种控制模式下表现出优越的泛化能力。在每个指令模式下,HOVER至少在12项指标中的7项上优于此前工作的特定控制器,显著性指标在下表中以粗体标出。

HOVER与基线方法在数据集Qˆ上的仿真运动模仿评估

HOVER在不同控制模式中的一致优势体现了其多功能性。此外,即使仅在单一控制模式下,基于Oracle策略的蒸馏方法仍优于RL训练的特定策略。

与其他常用控制模式特定策略的比较

除了前述基线之外,Jim Fan团队还评估了四种附加模式:左手模式、右手模式、双手模式和头部模式。他们分别训练了四个RL特定策略以单独跟踪这些模式。

左手模式、双手模式、右手模式

下表的结果表明,HOVER在跟踪特定指令配置的指标上持续优于这些特定策略。

A2:与其他通用训练方法的比较

Jim Fan团队将HOVER与一种多模式RL基线进行比较,该基线采用相同的指令屏蔽过程,但从零开始以RL目标进行训练。

在下图中,他们评估了四项指标的跟踪误差:根部姿态、上半身关节角度、局部身体位置和全局身体位置,测量于八种不同模式下。

结果显示,HOVER在32项指标和模式中的跟踪误差始终较低。这一性能提升表明,从跟踪全身运动学的Oracle策略中蒸馏出通用全身控制器具有重要意义。

A3:真实环境评估

Jin Fan团队进行了定量的跟踪实验和定性的行走测试,以评估HOVER多模式控制能力。

站立运动评估

他们在真实环境中评估HOVER的性能,测试了数据集Qˆ中的20种不同站立运动。

其中两种运动在下图中有视觉示例。如下图中间所示,他们展示了根部俯仰运动的成功跟踪;在下图右侧展示了全身运动学跟踪,机器人能够跟踪高度动态的跑步运动。

下表中展示的定量指标表明,HOVER在12项指标中有11项优于特定策略。

多模式评估

Jim Fan团队还评估了HOVER在行走任务中的泛化能力。他们在操作过程中突然切换指令模式,以模拟真实场景。

如下图(a)中,HOVER成功在前进行走时从ExBody模式切换到H2O模式;

(b)中,在执行转弯和后退行走时,从HumanPlus模式切换到OmniH2O模式。

此外,他们使用Vision Pro进行了一个真实的远程操作演示,随机屏蔽了头部和手部的位置。例如,下图(c)中间,机器人在头部模式下仅跟踪人的头部位置,忽略挥动的手部动作。

结果表明,HOVER能够在不同模式下平稳地跟踪运动,展示出其在真实场景中的稳健性。

作者介绍

Tairan He

共同一作Tairan He是卡内基梅隆大学机器人研究所的二年级博士生,由Guanya Shi教授和Changliu Liu教授指导。他同时也是NVIDIA GEAR小组的成员。该小组由Jim Fan和Yuke Zhu领导。

此前,他在上海交通大学获得计算机科学学士学位,导师是Weinan Zhang。并曾在微软亚洲研究院工作过一段时间。

他的研究目标是打造能改善每个人生活质量的机器人;重点是如何为机器人构建数据飞轮,使其获得媲美人类的运动能力和语义理解能力,以及如何让机器人既能安全可靠,又能灵活适应各种环境,具备通用性和敏捷性来完成各类实用任务;采用的是随计算能力和数据规模扩展的机器学习方法。

Wenli Xiao

共同一作Wenli Xiao是卡内基梅隆大学机器人研究所(MSR)的硕士生,由Guanya Shi教授和John Dolan教授指导。

他目前在NVIDIA GEAR实验室担任研究实习生,与Jim Fan博士和Yuke Zhu教授一起研究人形机器人基础模型。

此前,他在香港中文大学(深圳)获得电子信息工程专业学士学位。

参考资料:

https://hover-versatile-humanoid.github.io/





跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人形机器人 HOVER 全身控制器 运动控制 策略蒸馏
相关文章