多智能体强化学习：从单智能体到 LLM-Agents 的演进丨「大模型时代下的Agent建模与仿真」读书会·周二直播

集智俱乐部 19小时前

本次读书会将围绕单智能体强化学习到多智能体协同的机制构建，再到融合语言模型的前沿探索，系统讲解从单智能体强化学习到多智能体协同的机制构建，再到融合语言模型的前沿探索，帮助您全面理解当代智能体系统的发展逻辑与未来趋势。

🤖 单智能体强化学习：解析状态、动作、奖励、策略、值函数等基本概念及其交互闭环；介绍值函数方法（如Q-Learning、SARSA）到策略优化方法（如REINFORCE、PPO）的进化；阐述深度强化学习的关键机制，如泛化能力、经验回放、目标网络等；剖析DQN与PPO算法的实际构建流程。

🤝 多智能体强化学习：分析MARL问题定义与挑战，如非平稳性、信用分配、策略耦合、通信建模等；解析典型方法框架，包括Independent Q-Learning、CTDE框架下的VDN、QMIX、MADDPG、MAPPO等主流模型机制；回顾多智能体强化学习在复杂博弈与协作任务中的经典工作。

🗣️ 融合大语言模型的多智能体智能体建构：探讨LLM引入的三类路径，即作为状态嵌入器、策略生成器与通信引擎；构建语言协同智能体，实现“语言即策略”；展望LLM-Agents作为通用型协作智能体架构的雏形，将如何重构群体智能与复杂系统建模的新范式。

🧠 大模型与MARL结合：分析大模型如何赋能Agent实现自主思考与动态适应；探讨大模型驱动的Agent交互会涌现出什么新型的社会现象；研究Agent建模与仿真如何改变金融、心理、管理、军事等领域的研究范式。

🔮 未来趋势：畅想大模型时代人工社会的未来图景，探讨大模型时代，Agent建模与仿真会给复杂系统理论带来哪些突破。

2025-07-20 22:53 河南

7月22日（周二）晚上19:30-21:30直播

导语

集智俱乐部联合山东工商学院副教授高德华、天津大学教授薛霄、北京师范大学教授张江、国防科技大学博士研究生曾利共同发起「大模型时代下的Agent建模与仿真」读书会。读书会自2025年7月8日开始，预计持续分享8周左右。扫码加入Agent建模与仿真的前沿探索之旅，一起共学、共创、共建、共享「大模型时代下的Agent建模与仿真」社区，共同畅想大模型时代人工社会的未来图景！

本周是读书会的第三期分享，曾利博士将围绕强化学习从单智能体到深度策略优化的核心原理，解析状态、动作等概念及 DQN、PPO 等算法构建；深入多智能体强化学习范式，剖析非平稳性等挑战与主流模型机制；探讨融合大语言模型的多智能体建构，解析 LLM 引入路径与未来范式，展现从基础到前沿的技术演进与应用实践。

分享背景

强化学习（Reinforcement Learning, RL）作为人工智能中建模“智能体-环境交互”的核心范式，近年来已在众多复杂系统中展现出惊人的性能。随着深度神经网络与计算资源的发展，RL已从传统的表格型方法迈向深度强化学习（Deep RL）阶段，极大拓展了其在高维状态空间下的泛化能力与实用性。

在此基础上，多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）应运而生，成为应对多方博弈、群体协作与复杂机制设计等问题的关键技术路径。近年来，MARL在多个领域取得了令人瞩目的成果：它不仅推动了《星际争霸II》、《德州扑克》、《陆军棋》等复杂博弈中超越人类的AI系统诞生，也在经济政策优化、仿人足球、多机器人协作、语言涌现与社会行为建模等任务中实现重大突破，成为连接智能体学习与群体智能的核心桥梁。强化学习也因此从单体智能迈向群体智能，从控制优化工具演化为“社会建模引擎”。

与此同时，大语言模型（Large Language Models, LLMs）的崛起，为构建具备推理、协作与语言能力的认知智能体提供了前所未有的技术基础。LLMs不仅能以自然语言感知环境、表达意图，更能作为策略生成器、通信协议或行为控制器嵌入强化学习体系中，成为多智能体系统中的“语言中枢”与“知识内核”。基于此，融合MARL与LLMs的认知型智能体系统，正逐步形成新的研究范式，为人工智能的泛化能力、交互能力与社会适应能力打开新局面。

分享简介

本次分享将围绕“单智能体强化学习 - 多智能体强化学习 - 大语言模型”这一技术进化路径，系统讲解从单智能体强化学习到多智能体协同的机制构建，再到融合语言模型的前沿探索，帮助您全面理解当代智能体系统的发展逻辑与未来趋势。

分享大纲

一、强化学习基础框架：从单智能体到深度策略优化的核心原理梳理

理解智能体决策过程：系统解析状态、动作、奖励、策略、值函数等基本概念及其交互闭环；

强化学习的典型方法谱系：从值函数方法（如Q-Learning、SARSA）到策略优化方法（如REINFORCE、PPO）的一体化进化；

深度强化学习的关键机制：引入神经网络后的泛化能力、经验回放、目标网络、策略稳定性与样本效率提升机制；

代表算法结构剖析：聚焦DQN与PPO算法的实际构建流程，搭建强化学习系统的基础认知图谱。

深度强化学习在组合优化问题求解中的应用实践：介绍深度强化学习在求解组合优化问题中的思路与案例

二、多智能体强化学习范式演进：从独立学习到群体协同的策略博弈建模

MARL问题定义与挑战全景：非平稳性、信用分配、策略耦合、通信建模等核心瓶颈分析；

典型方法框架解析：从Independent Q-Learning到CTDE（集中训练、分布执行）框架下的VDN、QMIX、MADDPG、MAPPO等主流模型机制；

多智能体强化学习经典工作：回顾多智能体强化学习在复杂博弈与协作任务中的经典工作；

三、融合大语言模型的多智能体智能体建构：LLM-Agents范式的兴起与技术逻辑

LLM引入的三类路径：作为状态嵌入器（语言感知）、策略生成器（行为规划）与通信引擎（信息交互）；

构建语言协同智能体：刻画语言中的目标意图、环境状态与多智能体指令分发关系，实现“语言即策略”；

展望未来：LLM-Agents作为通用型协作智能体架构的雏形，将如何重构群体智能与复杂系统建模的新范式。

核心术语

强化学习 / 深度强化学习 / 马尔可夫决策过程 / 组合优化

多智能体强化学习 / 博弈论 / 蒙特卡罗树搜索 / 大语言模型

参考文献

Albrecht, Stefano V., Filippos Christianos, and Lukas Schäfer. Multi-agent reinforcement learning: Foundations and modern approaches. MIT Press, 2024.

Zhang, Kaiqing, Zhuoran Yang, and Tamer Başar. "Multi-agent reinforcement learning: A selective overview of theories and algorithms." Handbook of reinforcement learning and control (2021): 321-384.

Yang, Yaodong, and Jun Wang. "An overview of multi-agent reinforcement learning from game theoretical perspective." arXiv preprint arXiv:2011.00583 (2020).

Nowé, Ann, Peter Vrancx, and Yann-Michaël De Hauwere. "Game theory and multi-agent reinforcement learning." Reinforcement learning: State-of-the-art. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012. 441-470.

Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." nature 518.7540 (2015): 529-533.

Moravčík, Matej, et al. "Deepstack: Expert-level artificial intelligence in heads-up no-limit poker." Science 356.6337 (2017): 508-513.

Vinyals, Oriol, et al. "Grandmaster level in StarCraft II using multi-agent reinforcement learning." nature 575.7782 (2019): 350-354.

Jaderberg, Max, et al. "Human-level performance in 3D multiplayer games with population-based reinforcement learning." Science 364.6443 (2019): 859-865.

Schrittwieser, Julian, et al. "Mastering atari, go, chess and shogi by planning with a learned model." Nature 588.7839 (2020): 604-609.

Fan, C., Zeng, L., Sun, Y., & Liu, Y. Y. (2020). Finding key players in complex networks through deep reinforcement learning. Nature machine intelligence, 2(6), 317-324.

Fan, Changjun, et al. "Searching for spin glass ground states through deep reinforcement learning." Nature communications 14.1 (2023): 725.

Pu, T., Chen, C., Zeng, L., Liu, S., Sun, R., & Fan, C. (2024, December). Solving Combinatorial Optimization Problem Over Graph Through QUBO Transformation and Deep Reinforcement Learning. In 2024 IEEE International Conference on Data Mining (ICDM) (pp. 390-399). IEEE.

Perolat, Julien, et al. "Mastering the game of Stratego with model-free multiagent reinforcement learning." Science 378.6623 (2022): 990-996.

Kaufmann, Elia, et al. "Champion-level drone racing using deep reinforcement learning." Nature 620.7976 (2023): 982-987

Lutz, Isaac D., et al. "Top-down design of protein architectures with reinforcement learning." Science 380.6642 (2023): 266-273.

McKee, Kevin R., et al. "Scaffolding cooperation in human groups with deep reinforcement learning." Nature Human Behaviour 7.10 (2023): 1787-1796.

Ma, Chengdong, et al. "Efficient and scalable reinforcement learning for large-scale network control." Nature Machine Intelligence 6.9 (2024): 1006-1020.

Hafner, Danijar, et al. "Mastering diverse control tasks through world models." Nature (2025): 1-7.

Zhuang, Yuan, et al. "Yolo-marl: You only llm once for multi-agent reinforcement learning." arXiv preprint arXiv:2410.03997 (2024).

Nagpal, Kartik, et al. "Leveraging Large Language Models for Effective and Explainable Multi-Agent Credit Assignment." arXiv preprint arXiv:2502.16863 (2025).

Jiang, Zhouyang, et al. "QLLM: Do We Really Need a Mixing Network for Credit Assignment in Multi-Agent Reinforcement Learning?." arXiv preprint arXiv:2504.12961 (2025).

Hao, Qianyue, et al. "Llm-explorer: A plug-in reinforcement learning policy exploration enhancement driven by large language models." arXiv preprint arXiv:2505.15293 (2025).

主讲人介绍

曾利，国防科技大学系统工程学院二年级在读博士，立理AI联合创始人。本硕博均就读于国防科技大学，在Nature Machine Intelligence、ICDM、CIKM、科研管理等会议和期刊上发表学术论文30余篇。

研究方向：复杂网络、强化学习、组合优化、大语言模型等

参与方式

参与时间

2025年7月22日（周二）晚上19:30-21:30

报名加入社群交流

https://pattern.swarma.org/study_group_issue/923?from=wechat

扫码参与「大模型时代下的Agent建模与仿真」读书会，，加入社群，获取系列读书会永久回看权限，与社区的一线科研工作者沟通交流，共同大模型时代的未来人工社会图景。

「大模型时代下的Agent建模与仿真」读书会

集智俱乐部联合山东工商学院副教授高德华、天津大学教授薛霄、北京师范大学教授张江、国防科技大学博士研究生曾利共同发起「大模型时代下的Agent建模与仿真」读书会。读书会自2025年7月8日开始，每周二晚上7:30-9:30进行，预计持续分享8周左右。扫码加入Agent建模与仿真的前沿探索之旅，一起共学、共创、共建、共享「大模型时代下的Agent建模与仿真」社区，共同畅想大模型时代人工社会的未来图景！

核心问题

Agent建模与仿真是什么，核心技术发生了怎样的演变？

大模型时代，Agent建模与仿真会给复杂系统理论带来哪些突破？

大模型如何赋能Agent实现自主思考与动态适应？

大模型驱动的Agent交互会涌现出什么新型的社会现象？

Agent建模与仿真如何改变金融、心理、管理、军事等领域的研究范式？

你将收获

梳理Agent建模与仿真的历史发展脉络与方法论；

掌握一套理解、分析、控制、预测复杂系统的计算实验框架；

掌握基于多主体强化学习的复杂系统优化方法；

领略领域前沿学者的研究体系与科研路径。