原创 刘雅坤 2025-02-19 18:41 北京
尽管蚂蚁是一种体型很小的昆虫,但成群的蚂蚁却能够搬运又大又重的物体,原因在于它们通过高效的个体间协作实现了集体功能的最大化。
尽管蚂蚁是一种体型很小的昆虫,但成群的蚂蚁却能够搬运又大又重的物体,原因在于它们通过高效的个体间协作实现了集体功能的最大化。
上述现象启发了机器人学领域对群体智能的研究,这也是集群机器人领域(如 Kilobots、轮式机器人、鱼类机器人)长期以来的核心问题。
近期,德国康斯坦茨大学的团队与合作者在集群机器人学、微纳机器人学和强化学习的交叉领域取得了重大突破。
研究人员提出了一种多智能体强化学习策略,借助激光驱动的自推进胶体粒子,首次在微米尺度上实现了独立控制多达 200 个机器人,且具有 600 个可控自由度。
其中关键在于强化学习过程中使用了反事实奖励(Counterfactual Rewards)机制,通过给每个协同工作的微型机器人分配单独的奖励,机器人集群在高噪声和复杂物理耦合条件下,基于高效训练的人工神经网络完成了执行复杂的集体任务,比如将大型棒状颗粒运送到任意位置和方向。
视频丨微型机器人在不到 3000 次动作中成功率超过 90%(来源:Science Robotics)
该策略有望应用于移动微型机器、可编程药物递送胶囊以及其他先进的芯片实验室等领域的复杂自动化组装。
Science Robotics 主编阿莫斯·马西科(Amos Matsiko)对该研究评价称:“要在群体内控制每一个微型机器人颇具挑战性。Heuthe 等人提出了一种基于多智能体强化学习的微型机器人个体控制策略。在该学习过程中,每个微型机器人的奖励取决于它对整体性能的贡献。微型机器人的推进由激光束控制,作者演示了这些机器人群体像蚂蚁那样协同搬运货物的潜力。”
图丨顾红日(来源:顾红日)
日前,相关论文以《反事实奖励促进单独控制的集群微型机器人实现集体运输》(Counterfactual rewards promote collective transport using individually controlled swarm microrobots)为题发表在 Science Robotics[1]。
康斯坦茨大学博士生韦特洛伦茨·霍伊特(Veit-Lorenz Heuthe)是第一作者,顾红日博士(现香港科技大学助理教授)和克莱门斯·贝欣格(Clemens Bechinger)教授担任共同通讯作者。
图丨相关论文(来源:Science Robotics)
实现同时独立控制 200 个微米机器人
与单独的机器人相比,微型机器人群体可以通过改变系统大小来适应不同的任务需求。即使部分机器人出现硬件故障,其相邻的机器人也能迅速替代它们,从而保持系统的整体鲁棒性。
然而,如何控制和设计分布式系统,以及如何平衡冗余资源与效率的问题仍具有挑战性。此外,由于每个机器人的观察范围有限难以了解全局情况,因此如何根据有限的观测信息决定机器人的行动方向(如左转、右转、前进或静止)并非易事。
图丨受自然启发,在单独控制的微型机器人系统中集体运输大型货物(来源:Science Robotics)
在这一背景下,研究人员从自然现象中汲取灵感,探索如何在微型机器人系统中实现集体运输大型货物。为了应对强化学习算法中手动调整奖励的挑战,该课题组引入了反事实奖励机制。
具体而言,他们通过在微型机器人群中分配个别奖励,提高了学习性能,并成功克服了“懒惰代理问题”,即一些机器人不积极参与任务,却因其他机器人的工作而获得奖励,从而削弱了整体的学习效率。
为了准确评估每个机器人的具体贡献,研究人员采用了一种能够兼顾平衡计算量和优化训练过程的巧妙方法。在仿真计算中,他们移除一个机器人,观察群体在没有该机器人时的表现。
具体来说,如果移除某个机器人后系统性能没有变化,那么该机器人可能并不重要;但如果移除后系统无法完成任务(如推动物体),则说明该机器人的贡献很大。
通过比较真实实验和假设场景中的表现,研究人员可以自动为每个微型机器人分配奖励。每个机器人根据其对集体性能的贡献获得奖励,实现了“多劳多得”,这不仅减少了奖励信号的噪声,还加快了训练过程。
实验结果表明,即使在存在大量噪声和不确定性的微观环境下,经过多智能体强化学习训练的微型机器人群体也能够成功执行任务。
图丨由团队控制微型机器人构成的像素风格的图案,用 6 微米大小的机器人组成更大的像素机器人图案。其中,绿色的螺旋是真实的螺旋藻(来源:顾红日)
该系统与其他微型机器人系统相比,独特之处还体现在:
前所未有的系统复杂性。
以往报道的微机器人集群大多数只有几个全局系统参数,而该研究中的激光控制微机器人系统展示了多达 200 个单独控制的微型机器人,具有 600 个可控自由度。
这主要得益于物理团队搭建的功能强大的激光操作平台。当一束激光进入系统后,经过一个基于声光效应的声光偏转器,通过声光耦合实现极高的分光速度,达到约 10 万赫兹。
“这意味着它可以在 10 万赫兹的速度下扫描二维空间,从而将一束激光分成 200 束甚至更多的光束,并且每束光的位置都可以精确控制。”顾红日说。
图丨微型机器人系统示意图(来源:Science Robotics)
从集体模式到集体功能。
此前,微机器人群的控制主要集中在集群本身的形状控制上,而这项工作进一步研究了大型货物颗粒的集体运输。这种集体功能涉及非对称的热波动、复杂的粒子间相互作用,甚至直接的表面碰撞,这些因素在过去的研究中通常被刻意避免。
该系统在模拟和实验中展现出灵活多变的特点,并对强热噪声和环境噪声具有很强的抗干扰能力。值得关注的是,其对故障单元也具备较强的容错能力,即便面对 20% 的故障单元,整体系统仍然可以完成任务。与此同时,还能够轻松适应多种应用场景。
多任务的端到端实施。
尽管多智能体强化学习很有潜力,但在集群机器人中成功实施的情况却很少见,主要因为计算机模拟的训练环境与现实环境存在差异。这项工作实现了一种端到端实施方法,让微型机器人群在实验中训练,并从现实世界的物理交互中学习。
图丨数量可拓展的微型机器人集群分布式控制系统(来源:Science Robotics)
微型机器人群体展示了分布式控制的优势。研究人员让经过训练的微型机器人群体同时旋转两个和三个杆,并且可以独立控制每个杆的旋转方向。这一演示实验突出了独立移动的微型机器人在分布式控制框架下,所展现出的复杂运动模式潜力。
顾红日指出,该系统在长时间实验中表现出极高的稳定性。“如果系统速度再慢一些,我们甚至可以控制更多的机器人,而不仅仅是 200 个。可见,这个系统在集群控制方面具有很大的潜力和灵活性。”
有望用于可编程药物递送和先进的芯片实验室等领域
尽管该研究仍处于早期阶段,但其在复杂环境的分布式控制场景已表现出应用潜力。例如,用于海面上流动机器人回收垃圾。
这些机器人受到海浪的影响运动速度较慢,且只能与附近的机器人进行通信,全局通信成本往往较高。在这种复杂的环境中,有望基于该技术协调这些机器人共同完成任务(例如推动大型物体等)。
从微纳机器人的角度来看,该技术有望用于在芯片上的微操作。例如,在大规模集群微操作中,其可用于组装多层水凝胶药物等复杂的药物结构。
目前这些结构的制备通常需要复杂的工艺,如果能够实现定制化和个性化药物制备,例如为每位患者定制独特的药物胶囊,这种高灵活性的微操作将具有重要的应用价值。在细胞治疗领域,该技术还有可能在患者细胞进行个性化处理方面发挥关键作用。
顾红日指出,该系统目前使用的是激光分光技术,未来可以考虑使用电光镊来等更强驱动的技术来实现更高效的操作。
在实验室环境中,多个微型机器人可以单独控制,并在较大的空间内协同完成复杂的任务,分布式系统的优点在这种场景下将更加明显,尤其是在全局控制难度较大的情况。
此外,顾红日对集群行为的理解方向也非常感兴趣。在一项涉及集群行为磁性技术的研究中,他曾设想利用集群行为对血液进行过滤。例如,通过深入理解颗粒在血液中如何与外界的病原体(如细菌)结合的方式,来实现血液过滤功能,进而治疗败血症等治愈较难的疾病。
“尽管目前这方面的研究还面临一些挑战,但深入理解集群行为对于解决这类问题至关重要。”顾红日说。
谈及 AI 在医疗领域的应用,他认为,“我们不会在短时间内完全进入全面智能化的时代。相反,AI 的应用将是一个逐步发展的过程,最初可能会在一些定义明确的任务中实现功能替代或增强。”
在这一过程中,AI 技术会帮助人们开发出更好用的工具。这些工具可能是在现有工具基础上的改进,或在价格上更具竞争力,或在质量上实现质的飞跃,从而让用户更愿意采用。
图丨康斯坦茨大学课题组(来源:顾红日)
顾红日具有机电工程、医疗工程方向和物理学科交叉的学术背景。他本科毕业于浙江大学后,在瑞士苏黎世联邦理工学院获得硕士和博士学位,师从微纳机器人先驱布兰德利·尼尔森(Bradley Nelson)教授。之后,他在康斯坦茨大学克莱门斯·贝欣格(Clemens Bechinger)教授课题组从事博士后研究(DeepTech 此前报道:中国学者验证最小尺度的可靠药物递送,通过仿生人工微管解决微纳机器人运行可靠性难题,速度提升至之前方案的10倍)。
2025 年 1 月,顾红日加入香港科技大学跨学科学院综合系统与设计系(Division of Integrative System and Design)担任助理教授,并成立独立课题组,主要关注新兴智能硬件系统的早期验证和开发,继续用交叉学科知识研究跨尺度磁性材料机器人和它们在医疗和环境领域的应用。
“香港科技大学的创新文化和大湾区的硬件创新资源,为技术转化提供了良好的环境。未来,我们将尝试将强化学习中的反事实训练方法应用到更广泛的机器人场景中。”顾红日说。
参考资料:
1.Heuthe et al., Counterfactual rewards promote collective transport using individually controlled swarm microrobots. Science Robotics 9, eado5888 (2024). https://doi.org/10.1126/scirobotics.ado5888
运营/排版:何晨龙
01/ Grok 3来了!马斯克宣称“地球上最聪明的AI”,20万张GPU能否颠覆AI格局?
02/ 哈佛团队研发新型CMOS芯片,成功监测超数千只老鼠神经元,且实现90%的平均细胞内耦合率
03/ DeepSeek真的冲击英伟达了吗?摩根士丹利最新报告:英伟达仍将保持主导地位
04/ 给导电聚合物铺上“高速公路”:科学家发现塑料添加剂可使热电塑料性能直接翻倍
05/ 每平方厘米可容纳11846个器件,科学家提出突触晶体管阵列制造新方法,有望用于高效能类脑计算