原创 集智编辑部 2025-02-18 17:30 上海
一种机器人终身强化学习框架
摘要
人类能够在其一生中不断积累知识,并发展出越来越复杂的行为和技能,这种能力被称为“终身学习”。尽管这种终身学习能力被认为是构成一般智能的重要机制,但人工智能领域的最新进展主要集中在狭窄、专门化的领域,并且通常缺乏这种终身学习能力。在此,我们介绍了一种机器人终身强化学习框架,通过开发受贝叶斯非参数领域启发的知识空间来弥补这一不足。此外,我们通过将语言嵌入整合到框架中,增强了智能体对任务的语义理解。我们提出的具身智能体能够持续从连续的一次性喂食任务流中积累知识。此外,我们的智能体能够通过结合和重新应用从原始任务流中获得的知识来解决具有挑战性的现实世界中的长期任务。所提出的框架推进了我们对机器人终身学习过程的理解,并可能激发更广泛适用的智能的发展。
研究领域:终身强化学习,贝叶斯非参数模型,知识空间,语言嵌入,灾难性遗忘
论文题目:Preserving and combining knowledge in robotic lifelong reinforcement learning
发表时间:2025年2月5日
论文地址:https://www.nature.com/articles/s42256-025-00983-2
期刊名称:Nature Machine intelligence
人类能够通过终身学习(Lifelong Learning)持续积累技能,而当前AI系统虽在单一任务中表现卓越,却难以像人类一样“学以致用”。传统多任务学习依赖固定数据集,面对未知任务时易出现“灾难性遗忘”。近日,Nature Machine Intelligence的一项研究发布全新框架LEGION,通过贝叶斯非参数知识空间与语言嵌入技术,让机器人实现终身强化学习,甚至能像人类一样重组旧技能解决复杂新任务。
图 1. 机器人终身强化学习(LRL)过程的概念图示。a,LRL 过程的总体概览图示。与传统多任务方法不同,在传统方法中,智能体可以同时访问所有任务,而 LRL 智能体能够依次掌握任务。此外,智能体在整个过程中应不断积累知识。这一概念模仿了人类的学习过程。b,我们在终身学习概念下的框架。我们指示部署的具身智能体使用语言指令执行长时任务。智能体通过组合和重新应用所获得的知识来完成这些任务。
核心方法:知识空间+语言语义双引擎驱动
1. 贝叶斯非参数知识空间:动态扩容的“记忆图书馆”
研究团队受狄利克雷过程混合模型(DPMM)启发,设计了一个可无限扩展的知识空间。该空间通过在线变分推断(MemoVB)动态创建或合并知识簇,无需预设任务数量。其运作逻辑在于当机器人学习新任务时,任务编码器将状态观测与语言指令嵌入结合,生成潜在表征,然后DPMM根据相似度将其归类到现有知识簇,或创建新簇存储。知识空间的优势在于能够突破传统神经网络固定架构限制,避免因任务流涌入导致旧知识被覆盖。
2. 语言嵌入:让机器人“听懂”任务语义
研究引入预训练大语言模型(LLM,如RoBERTa),将动作任务指令编码为语义向量,并与环境观测融合。例如:大语言模型中的语言嵌入帮助区分“推茶杯”和“开窗户”的动作差异,避免轨迹混淆;在一些长时程任务(如“清理桌面”)中,语言指令指导机器人按需调用“推”“抓握”“按压”等底层技能。
图 2. 知识空间的t-SNE截图。两个任务(a)、四个任务(b)、六个任务(c)、八个任务(d)和全部十个任务(e)训练后知识空间的t-SNE投影。(f)第一个训练循环后的t-SNE投影(圆)和第二个循环后的t-SNE投影(交叉)。值得注意的是,第二个训练循环的推理结果被合并到相应的知识组中,这些知识组在第一个循环中被保留。
实验结果:真实机器人“学得快、记得牢”
1. 10项任务流测试:零遗忘+正向迁移
机器人在10项连续任务(从“抓取”到“关窗”)中,平均成功率从0.38逐步提升至0.84,且旧任务遗忘率趋近于零。前向迁移(Forward Transfer)指标得分0.10,体现在早期任务(如“推”)的知识显著加速后期任务(如“关抽屉”)学习;另外,灾难性遗忘被完全抑制,部分任务因技能复用表现反升,如“开门”成功率从0.4提升至0.8。
2. 长时程任务:无需预设步骤的灵活组合
在“清理桌面”任务中,机器人自主调用7项子技能,成功率高达92%。更惊艳的是,任务顺序可任意调整——例如先“按按钮”再“推瓶子”,系统仍能通过知识重组完成任务。
3. 对比实验:完胜传统经验回放方法
与Reservoir、A-GEM等基于经验回放的方法相比,LEGION在持续学习中的平均成功率高出40%。即使任务数据比例从50%衰减至10%,知识空间仍能稳定保留核心特征。
图 3. LEGION框架训练和部署流程图。(a)训练。该框架接收语言语义信息和环境观察作为制定策略决策和输出操作模式的输入,它一次只训练一个任务。(b)部署。在现实世界的演示中,主体参数保持冻结,主体接收来自现实世界硬件的输入信号并输出相应的动作信号,“Sim2Real”和“Real2Sim”模块处理数据以调整模拟与现实世界之间的差距。
未来展望:迈向通用人工智能的关键一步
LEGION框架首次在真实机器人中验证了终身强化学习的可行性,其应用潜力包括:家庭服务机器人,持续学习新家电操作,无需反复编程;工业机器人,在动态产线中自适应多工种需求;人机协作,通过自然语言指令实时扩展技能库。团队下一步计划融合扩散模型提升动作平滑性,并探索零样本推理能力。这项研究或为通用人工智能(AGI)的发展推开一扇新大门。
从“机械重复”到“终身成长”,LEGION框架让机器人向人类学习模式迈出关键一步。或许不久的将来,每个家庭都能拥有一个“越用越聪明”的机器管家——它不会忘记你教过的每个动作,还能自学新技能给你惊喜。
彭晨 | 编译
【集智俱乐部-具身智能读书会夜谈活动推荐】
为了更多的了解大家的需求,具身智能主题读书会策划1-3次左右的夜谈交流,围绕一些话题进行深度交流~以及了解大家对想听的内容的想法和需求,欢迎大家加入报名读书会:具身智能读书会启动:走向现实世界的下一代AI系统
时间:2月18日(今天)晚8点
主题:具身智能的视觉-语言-动作模型(VLAs)
主讲人:马悦恩(香港中文大学)
▸ 议程:
- 马悦恩博士分享《A Survey on Vision-Language-Action Models forEmbodied AI》(30分钟)
- 圆桌讨论(陈雄辉主持兼嘉宾,60分钟)
圆桌讨论嘉宾:陈雄辉(南京大学在读博士)、马悦恩(香港中文大学在读博士)郭俊良(微软亚研院高级研究员)史雪松(银河通用机器人算法负责人)、穆尧(香港大学博士)、苏治中(地平线机器人实验室算法负责人)。
· Part1-综述分享
- VLA模型核心架构
- 分层策略机制
- 数据基础设施
- VLA模型面对的挑战和未来方向
· Part2-圆桌讨论议题:
- 具身智能数据获取困境
- 算法模型架构与泛化能力挑战
- 现实主义视角的产品化方向展望
- 技术前沿展望等
具身智能读书会启动
集智俱乐部联合上海交通大学助理教授李永露、银河通用机器人合伙人史雪松、南京大学LAMDA组博士生陈雄辉、香港大学在读博士生穆尧,共同发起首季「具身智能」读书会。读书会计划采用“自下而上”的层级结构,探讨四个核心模块:硬件系统(机器人本体设计),数据、仿真环境与Benchmark,机器人学习,具体场景任务。希望通过重点讨论经典、前沿的重要文献,帮助大家更好地学习机器人与具身智能技术前沿技术,为相关领域的研究和应用提供洞见。
读书会从2025年1月19日开始,每周日14:00-16:00,持续时间预计 6-8 周左右。每周进行线上会议,与主讲人等社区成员当面交流,之后可以获得视频回放持续学习。
推荐阅读
1. 大语言模型会推理吗?
2. 简单生物如何形成复杂认知?昆虫智能启发群体智能与集群机器人
3. Science Robotics速递:机器学习驱动的机器人身体形态自我发现
4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程
6. 加入集智,一起复杂!
点击“阅读原文”,报名读书会