集智俱乐部 2024年12月01日
Nat. Mach. Intell. 速递:大规模网络控制的高效和可扩展的强化学习
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

针对大规模网络系统高效控制的挑战,一篇发表在Nature Machine Intelligence上的研究提出了一种基于模型的分布式策略优化框架。该框架利用多智能体强化学习(MARL)和部分可观测马尔可夫决策过程(MDP),通过分布式学习和局部模型预测,有效降低了通信成本和计算复杂度。研究者在交通信号灯控制、电网调度等多个领域进行了验证,结果表明该框架表现优异,具有良好的可扩展性,为复杂网络系统智能化控制提供了新的思路。此外,研究还探讨了未来通过优化系统拓扑结构进一步提升算法效率的可能性,为交通、能源等领域智能系统设计提供了新的方向。

🤔 **ξ依赖网络MDP模型:**该框架提出了一种ξ依赖网络MDP模型,其中ξ衡量了系统局部动态与全局动态的偏差,为网络系统建模提供了理论基础,将大规模网络系统分解成多个相互关联的局部MDP,每个MDP由一个智能体控制。

🤖 **分布式局部模型学习:**每个智能体仅需获取邻域信息,预测下一时刻的状态和奖励,无需全局信息,降低了通信成本。策略更新采用近端策略优化(PPO)算法,实现智能体行为的优化。

⏱️ **短视回滚方法:**为了减少模型误差累积,框架引入了短视回滚方法,用多个短时间跨度的预测代替长时间预测,提升了模型的稳定性和可靠性。

🚦 **多领域应用验证:**研究者在交通信号灯控制、电网调度、疫情网络和车辆队列管理等大规模网络系统中验证了该框架,结果表明该框架的表现均超越了现有方法,展现了卓越的可拓展性。

💡 **未来研究方向:**研究提出未来可以通过引入信息熵理论优化系统拓扑,进一步提升算法的效率和适用性,为未来研究提供了方向。

原创 集智编辑部 2024-12-01 18:55 北京

一种基于模型的分布式策略优化框架


关键词:强化学习,大规模网络控制,多智能体,马尔可夫决策过程,分布式方法



论文题目:Efficient and scalable reinforcement learning for large-scale network control

论文地址:https://www.nature.com/articles/s42256-024-00879-7

期刊名称:Nature Machine Intelligence


在当今高度复杂的技术环境中,如何对大规模网络系统进行高效控制已成为一大挑战。从交通信号灯优化到电力网络调度,每个场景都要求 AI 具备卓越的适应性和可扩展性。然而,传统的集中式方法往往受限于高通信成本和计算复杂度,难以满足实际需求。近期发表在 Nature Machine Intelligence 上的一篇研究,提出了一种基于模型的分布式策略优化框架,以多智能体强化学习(MARL)为核心,通过分布式学习和部分可观测马尔可夫决策过程(MDP)的创新应用,实现对大规模网络系统的高效控制。


传统集中式学习具有高通信成本、高计算复杂度和实际适用性差等局限,相较之下,分布式方法通过邻域通信和局部决策可以降低系统开销,并增强在复杂环境中的适应能力。文章首先提出的是 ξ 依赖网络MDP模型,其中 ξ 衡量了系统局部动态与全局动态的偏差,为网络系统建模提供了理论基础。基于此,采用分布式的局部模型学习方法,各智能体根据邻域信息预测下一时刻的状态和奖励,无需全局信息,降低通信成本,策略更新使用近端策略优化(PPO)实现。为减少模型误差的累积,框架还引入了短视回滚方法,用多个短时间跨度的预测代替长时间预测,提升模型的稳定性。研究者在覆盖多领域的大规模网络系统中对这一框架进行了验证,包括交通信号灯控制、电网调度、疫情网络和车辆队列管理等方面,该框架的表现均超越了现有方法,展现了卓越的可拓展性。


综上,研究揭示了AI系统在大规模网络中实现可扩展决策的关键路径:局部学习与全局协同的平衡。这一方法为交通、能源、医疗等领域的智能系统设计提供了新的可能。此外,研究还提出未来可以通过引入信息熵理论优化系统拓扑,进一步提升算法的效率和适用性。


图 1. 研究方法架构,不同MDP之间的区别和联系,以及模型学习过程。(a) 算法包括分布式策略、价值函数、模型、模型缓冲和环境缓冲部分。红色箭头突出了主要步骤,包括从模型和实际环境中对策略和模型学习进行经验采样。模型框架采用嵌入层进行状态和动作特征提取,然后基于图网络拓扑进行合并。(b) 网络MDP、原始MDP和模型MDP中不同p的区别和联系。(c) 不同的D构成三角不等式关系,模型学习的主要目标是最小化独立逼近误差,以减小模型误差与依赖偏差之间的差异。(d) 在现实世界的复杂系统中,我们证明了ξ的值都是小正值。(e) 模型学习的过程包括从模型缓冲区中采样轨迹进行多次迭代学习。


图 2. (a) 摩纳哥交通网络(部分)有28个不同的交通灯,纽约交通网络(部分)有432个交通灯。(b) 自适应交通信号控制任务关键评价指标。在前3000秒内,系统不断承载车辆通行,导致交叉口的交通压力逐渐增加,平均排队长度逐渐增加。该框架很好地清除了交通拥堵,使得电网的最大平均排队长度不超过6辆左右,摩纳哥2辆,纽约1辆,低于其他算法。在3000秒的车辆加载后,该框架可以将电网中每辆车的平均交叉口延迟维持在250秒左右,摩纳哥中每辆车300秒,纽约中每辆车10秒,该框架可防止延迟增加。在不同时期,该分布式框架实现了车辆到达最多、停车最少和平均速度稳定。



彭晨 | 编译



复杂系统自动建模读书会第二季



详情请见:

复杂系统自动建模读书会:从数据驱动到可解释性,探索系统内在规律|内附75篇领域必读文献



推荐阅读

1. 如何在有限观测下推断系统状态?大规模网络的功能可观测性与目标状态估计

2. PRL 速递:高效通信量子算法用于分布式机器学习

3. PNAS速递:蚁群分布式算法解决最短路径问题

4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程

5. 龙年大运起,学习正当时!解锁集智全站内容,开启新年学习计划

6. 加入集智,一起复杂!



点击“阅读原文”,报名读书会

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

强化学习 分布式优化 网络控制 多智能体 马尔可夫决策过程
相关文章