原创 Rocky Luo 2025-02-18 16:35 广东
欢迎大家基于最新最强的 RWKV-7 架构开展学术研究
近日 RWKV 生态新增来自海外名校的两项工作:Stanford(斯坦福大学)团队的 RWKV 多智能体研究,和 UVa(弗吉尼亚大学) 团队的 RWKV 端侧优化研究。
RWKV 多智能体强化学习
四名斯坦福大学研究人员共同发布了《Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning》论文,研究使用多智能体强化学习(multi-agent reinforcement learning)训练 RWKV 模型,使其能通过自然语言交流完成《Among Us》游戏的推理过程并赢下游戏。
论文已被 AAMAS 2025 主会(口头报告)接收,论文作者在 RWKV Discord 频道分享了这一消息,并分享了“为什么使用 RWKV-4-World 模型”。
为何选择 RWKV 而非 Transformer? 因为 RWKV 的显存占用恒定、理论上支持无限上下文长度。Among Us 游戏单局轨迹可达数万 token,Transformer 模型显存占用过高,而 RWKV 的循环结构通过 T-BPTT 实现无限上下文训练,单 GPU 即可完成训练(论文的实验基于一张 48G 显存的 A40 显卡)
为何使用 RWKV-4,而非性能更好的 RWKV-5/6/7 模型? 研究在 2023 年夏季启动,当时 RWKV-4 是唯一可用版本。团队通过修改 RWKV-4 的 CUDA 内核优化计算效率,没有时间适配 RWKV 新架构。未来计划适配 RWKV-7,进一步提升模型性能。
接下来我们一起看看该工作的创新点,以及 RWKV 模型在论文中表现出来的强大性能:
游戏规则
💡Tips《Among Us》是类似于狼人杀/鸭鹅杀的社交推理游戏。
游戏规则:在一辆宇宙飞船上有船员(Crewmates)和内鬼(Impostors)两种角色。内鬼的目标是暗中破坏飞船设施、杀死船员,并在讨论时伪装成普通船员以避免被发现,船员的目标则是通过讨论进行逻辑推理,然后投票淘汰内鬼。
下图是论文中智能体在《Among Us》游戏的循环示意图,游戏开始时同时向所有智能体发送观察结果,然后在每个时间步从一组有效的行动中收集标记化的行动历史。
无需人工数据,纯 Self-Play
这项工作创新的地方在于完全不依赖人工标注数据,而是通过纯自我对抗学习(Self-Play) 如环境反馈(投票结果、任务进度)和智能体(Agent)间交互来训练 AI 的语言交流能力。AI 智能体通过多轮博弈,逐步学习如何在讨论中提取关键信息,并形成自己的投票策略。
完整的训练框架引入了 RL + 听说双重训练机制。先通过强化学习(RL),使得 AI 在没有人工数据示例的情况下学会如何行动。
💡Tips以下是用于优化 AI 长期游戏胜率的强化学习损失函数,同时使用 KL 约束()限制 AI 不能偏离自然语言分布。
此外,研究团队引入了一种新的听/说双重奖励机制:
听力奖励(Listening Reward):听力的损失函数: ,用于训练 AI 通过讨论预测环境信息,从而预测谁是内鬼。
融合听力奖励后,强化学习的损失函数如下:
表达奖励(Speaking Reward):奖励 AI 生成能影响队友决策的消息,好的发言会获得更高的奖励
融合了 RL + 听说双重奖励后,用于训练智能体的强化学习损失函数如下:
但 RL 算法非常善于 Hack 规则的漏洞。如果不加干预,智能体可能会抓住 Among Us 游戏规则的漏洞“作弊”并进入失效模式(Failure Modes),比如船员们使用非自然语言来“对暗号”(非自然语言交流),或者在讨论阶段集体沉默等内鬼说话(作弊合作)等。
失效模式与解决方案
为了避免模型偏离自然语言的轨道或偏离任务目标,作者团队采取了一些巧妙的解决方案:
KL 约束:为了避免模型在讨论过程中“跑偏”,团队在训练中加入了 KL 约束(强化学习损失函数中的 ),强制模型始终保持使用自然语言进行交流
冻结部分智能体:为了防止模型在训练过程中学会不自然的策略(比如大家都不发言,只等内鬼发言),研究团队选择冻结部分智能体,让它不参与策略调整,从而避免了“集体摆烂”的现象
世界建模损失(World Modeling Loss):为了确保模型在每次讨论时都能记住重要的上下文信息,论文引入了世界建模损失:
世界建模损失用于帮助智能体学习更长期、更合理的策略,避免出现像等待策略(Waiting Strategy,智能体一直待在起始房间不动,然后投票淘汰移动过的玩家)等退化现象。这些策略虽然在短期内有效,但严重破坏了游戏的真实性和挑战性。
最终,完整的损失函数结合了强化学习(RL)、听力(Listening)、表达(Speaking)、世界建模(WM):
通过新颖的“听说奖励” 结合 KL 约束和世界建模损失等优化,斯坦福团队的研究突破了 RL 传统上的局限,训练出来的 模型在社交推理任务中展现出了更接近人类的行为模式,为多智能体协作和复杂场景下的语言模型训练提供了新范式。
RWKV 模型:胜率碾压 + 类人行为涌现
论文选择 RWKV-4-World 模型作为语言模型基座,实验结果验证了其强大性能:
1. 胜率碾压
完整训练框架(RL + 听说)的 模型(RWKV-4-World-1.5B), Among US 游戏胜率是传统强化学习模型的 2 倍,且优于 4 倍参数量的 RWKV 基底模型(RWKV-4-World-7B)。
💡Tips上图:不同算法训练的模型在基础环境(2 × 2 网格,每名队员 4 项任务,共 5 名玩家)中的胜率,经过完整框架训练的 RWKV 模型(橙色)胜率大幅领先传统 RL 模型(浅灰色)。
在未训练过的环境配置中(如不同地图布局、任务数量),RWKV 模型仍能保持高胜率,展现了强大的泛化能力。
💡Tips上图:使用不同算法训练的 AI 船员,在不同环境配置下的获胜率,环境修改包括更改游戏地图形状、任务数量和玩家数量。
2. 类人行为涌现
AI 学会指控嫌疑人(如“Player Green 在尸体房间离开”),会提供证据支持自己的观点。甚至会编造谎言,试图误导队友(类似人类玩家策略)。
3. 强适应能力
值得一提的是,游戏里的内鬼也是特别强化(反指控、转移焦点等)过的,其损失函数:
然而,面对自适应训练的内鬼,RWKV 船员仍能保持 50% 以上胜率,展现了强大的抗干扰能力。
实验数据验证了 RWKV 在多智能体社交推理中的卓越性能,更揭示了 RWKV 在轻量化部署与长序列决策场景的独特优势。
未来工作
论文作者表示后续将开展更多 RWKV 相关研究,包括:
训练 RWKV 模型去塑造其他 LLM 智能体的行为和逻辑
训练 RWKV 向人类解释多智能体的团队决策逻辑
高效的世界建模
利用 RWKV 长序列处理能力分析市场数据,实现金融时序预测
RWKV 4/5/6/7 的纯 Jax 实现,实现更高效训练和推理
此外,作者认为 RWKV 的 state tuning[2] 在多智能体的研究上拥有极大的优势。 通过切换 state 来改变智能体的“基因”,远比切换模型、切换 LoRA 等方式更方便、更无缝。
RWKV 端侧部署优化
UVa(弗吉尼亚大学) 团队提出了 RWKV-Lite,一套从模型架构优化到后训练压缩的高效 RWKV 模型压缩技术。
在保持模型准确率基本不变的情况下,RWKV-Lite 将内存占用降低了 3.4 – 5 倍;若结合量化,整体内存需求甚至可降低 10 倍。与此同时,该方法带来的计算开销微乎其微,非常适合边缘部署。
该论文已被机器学习顶会 ICML 2024 收录。论文地址:https://arxiv.org/html/2412.10856v3[3]
RWKV-Lite 的压缩方向大致有以下三点:
低秩近似(Low-Rank Approximation)
针对 RWKV 块中的投影权重矩阵(如 channel-mix
和 time-mix
层),通过奇异值分解(SVD)将大型矩阵拆分为两个低秩矩阵,减少参数量的同时保留关键信息。
实验显示,低秩压缩可实现 4 倍参数压缩,且可以通过持续训练(Continual Training)恢复精度损失。
稀疏性利用(Sparsity Exploitation)
发现 RWKV 的 FFN 层存在显著稀疏性(67%-83% 的神经元激活率为零),提出混合预测器(MLP + 1-bit 量化)动态加载关键神经元权重,减少推理时内存占用。
嵌入缓存与分层分类头
嵌入缓存:通过缓存高频词嵌入,减少对大型嵌入层的依赖
分层分类头:将词汇表聚类,仅加载与当前预测相关的词权重
💡Tips下图是论文演示在一个可穿戴设备上运行压缩后的 RWKV 模型(带可视化屏幕),开发板型号为 Orange Pi Zero 2W,板载 CPU 1.5GHz 4x Cortex-A53,内存 4GB 。
欢迎开展 RWKV 学术研究
我们欢迎大家基于最新最强的 RWKV-7 架构开展学术研究!
最新发布的 RWKV-7 2.9B 模型在各类评测中表现出色,其英文和多语言能力显著超越所有同尺寸模型(英文评测 71.1%,多语言评测 62.3%),超越了包括 Llama 3.2 3B(英文评测 68.7%,多语言评测 57.3%)、Qwen2.5 3B(英文评测 68.6%,多语言评测 57.0%)等知名优秀开源模型。
此外,我们为 RWKV 学术研究提供全面的支持和激励,包括:
力所能及的技术支持和算力支持,具体支持请在公众号内发消息联系我们沟通
对 RWKV 学术研究提供生态奖金,详情查看:RWKV 2025 生态内容征集大赛
💡Tips微软已经将 RWKV 全面引入 Windows 10/11 系统,足以证明 RWKV 的端侧优势。
相关链接
[1]
RWKV 多智能体强化学习论文: https://arxiv.org/abs/2502.06060
[2]state tuning: https://rwkv.cn/RWKV-Fine-Tuning/State-Tuning
[3]RWKV-Lite 论文: https://arxiv.org/html/2412.10856v3