摘要
人类能够在其一生中不断积累知识,并发展出越来越复杂的行为和技能,这种能力被称为“终身学习”。尽管这种终身学习能力被认为是构成一般智能的重要机制,但人工智能领域的最新进展主要集中在狭窄、专门化的领域,并且通常缺乏这种终身学习能力。在此,我们介绍了一种机器人终身强化学习框架,通过开发受贝叶斯非参数领域启发的知识空间来弥补这一不足。此外,我们通过将语言嵌入整合到框架中,增强了智能体对任务的语义理解。我们提出的具身智能体能够持续从连续的一次性喂食任务流中积累知识。此外,我们的智能体能够通过结合和重新应用从原始任务流中获得的知识来解决具有挑战性的现实世界中的长期任务。所提出的框架推进了我们对机器人终身学习过程的理解,并可能激发更广泛适用的智能的发展。


论文题目:Preserving and combining knowledge in robotic lifelong reinforcement learning 发表时间:2025年2月5日 论文地址:https://www.nature.com/articles/s42256-025-00983-2 期刊名称:Nature Machine intelligence

图 1. 机器人终身强化学习(LRL)过程的概念图示。a,LRL 过程的总体概览图示。与传统多任务方法不同,在传统方法中,智能体可以同时访问所有任务,而 LRL 智能体能够依次掌握任务。此外,智能体在整个过程中应不断积累知识。这一概念模仿了人类的学习过程。b,我们在终身学习概念下的框架。我们指示部署的具身智能体使用语言指令执行长时任务。智能体通过组合和重新应用所获得的知识来完成这些任务。
核心方法:知识空间+语言语义双引擎驱动
核心方法:知识空间+语言语义双引擎驱动

图 2. 知识空间的t-SNE截图。两个任务(a)、四个任务(b)、六个任务(c)、八个任务(d)和全部十个任务(e)训练后知识空间的t-SNE投影。(f)第一个训练循环后的t-SNE投影(圆)和第二个循环后的t-SNE投影(交叉)。值得注意的是,第二个训练循环的推理结果被合并到相应的知识组中,这些知识组在第一个循环中被保留。
实验结果:真实机器人“学得快、记得牢”
实验结果:真实机器人“学得快、记得牢”

图 3. LEGION框架训练和部署流程图。(a)训练。该框架接收语言语义信息和环境观察作为制定策略决策和输出操作模式的输入,它一次只训练一个任务。(b)部署。在现实世界的演示中,主体参数保持冻结,主体接收来自现实世界硬件的输入信号并输出相应的动作信号,“Sim2Real”和“Real2Sim”模块处理数据以调整模拟与现实世界之间的差距。
未来展望:迈向通用人工智能的关键一步
未来展望:迈向通用人工智能的关键一步
彭晨 | 编译
【集智俱乐部-具身智能读书会夜谈活动推荐】
为了更多的了解大家的需求,具身智能主题读书会策划1-3次左右的夜谈交流,围绕一些话题进行深度交流~以及了解大家对想听的内容的想法和需求,欢迎大家加入报名读书会:具身智能读书会启动:走向现实世界的下一代AI系统
时间:2月18日(今天)晚8点
主题:具身智能的视觉-语言-动作模型(VLAs)
主讲人:马悦恩(香港中文大学)
▸ 议程:
- 马悦恩博士分享《A Survey on Vision-Language-Action Models forEmbodied AI》(30分钟)
- 圆桌讨论(陈雄辉主持兼嘉宾,60分钟)
圆桌讨论嘉宾:陈雄辉(南京大学在读博士)、马悦恩(香港中文大学在读博士)郭俊良(微软亚研院高级研究员)史雪松(银河通用机器人算法负责人)、穆尧(香港大学博士)、苏治中(地平线机器人实验室算法负责人)。
具身智能读书会启动
集智俱乐部联合上海交通大学助理教授李永露、银河通用机器人合伙人史雪松、南京大学LAMDA组博士生陈雄辉、香港大学在读博士生穆尧,共同发起首季「具身智能」读书会。读书会计划采用“自下而上”的层级结构,探讨四个核心模块:硬件系统(机器人本体设计),数据、仿真环境与Benchmark,机器人学习,具体场景任务。希望通过重点讨论经典、前沿的重要文献,帮助大家更好地学习机器人与具身智能技术前沿技术,为相关领域的研究和应用提供洞见。
读书会从2025年1月19日开始,每周日14:00-16:00,持续时间预计 6-8 周左右。每周进行线上会议,与主讲人等社区成员当面交流,之后可以获得视频回放持续学习。
6. 加入集智,一起复杂!
内容中包含的图片若涉及版权问题,请及时与我们联系删除