RWKV元始智能 04月09日 17:51
Stanford 团队展现 RWKV 多智能体优势,UVa 团队突破 RWKV 端侧性能
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了基于RWKV架构的学术研究,包括斯坦福大学的多智能体研究和弗吉尼亚大学的端侧优化研究,以及RWKV-7架构的优势和相关支持

斯坦福大学团队开展RWKV多智能体研究,训练模型完成游戏推理

研究通过纯自我对抗学习训练AI语言交流能力,引入多种奖励机制

为避免模型失效,采取KL约束等解决方案

弗吉尼亚大学团队提出RWKV-Lite,降低内存占用并适合边缘部署

原创 Rocky Luo 2025-02-18 16:35 广东

欢迎大家基于最新最强的 RWKV-7 架构开展学术研究

近日 RWKV 生态新增来自海外名校的两项工作:Stanford(斯坦福大学)团队的 RWKV 多智能体研究,和 UVa(弗吉尼亚大学) 团队的 RWKV 端侧优化研究。

RWKV 多智能体强化学习

四名斯坦福大学研究人员共同发布了《Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning》论文,研究使用多智能体强化学习(multi-agent reinforcement learning)训练 RWKV 模型,使其能通过自然语言交流完成《Among Us》游戏的推理过程并赢下游戏。

论文已被 AAMAS 2025 主会(口头报告)接收,论文作者在 RWKV Discord 频道分享了这一消息,并分享了“为什么使用 RWKV-4-World 模型”。

论文作者在 RWKV Discord 频道分享

接下来我们一起看看该工作的创新点,以及 RWKV 模型在论文中表现出来的强大性能:

游戏规则

💡Tips

《Among Us》是类似于狼人杀/鸭鹅杀的社交推理游戏。

游戏规则:在一辆宇宙飞船上有船员(Crewmates)和内鬼(Impostors)两种角色。内鬼的目标是暗中破坏飞船设施、杀死船员,并在讨论时伪装成普通船员以避免被发现,船员的目标则是通过讨论进行逻辑推理,然后投票淘汰内鬼

Among Us 示例

下图是论文中智能体在《Among Us》游戏的循环示意图,游戏开始时同时向所有智能体发送观察结果,然后在每个时间步从一组有效的行动中收集标记化的行动历史。

游戏的循环过程

无需人工数据,纯 Self-Play

这项工作创新的地方在于完全不依赖人工标注数据,而是通过纯自我对抗学习(Self-Play) 如环境反馈(投票结果、任务进度)和智能体(Agent)间交互来训练 AI 的语言交流能力。AI 智能体通过多轮博弈,逐步学习如何在讨论中提取关键信息,并形成自己的投票策略。

完整的训练框架引入了 RL + 听说双重训练机制。先通过强化学习(RL),使得 AI 在没有人工数据示例的情况下学会如何行动。

💡Tips

以下是用于优化 AI 长期游戏胜率的强化学习损失函数,同时使用 KL 约束(限制 AI 不能偏离自然语言分布。

此外,研究团队引入了一种新的听/说双重奖励机制

融合听力奖励后,强化学习的损失函数如下:

融合了 RL + 听说双重奖励后,用于训练智能体的强化学习损失函数如下:

 RL 算法非常善于 Hack 规则的漏洞。如果不加干预,智能体可能会抓住 Among Us 游戏规则的漏洞“作弊”并进入失效模式(Failure Modes),比如船员们使用非自然语言来“对暗号”(非自然语言交流),或者在讨论阶段集体沉默等内鬼说话(作弊合作)等。

失效模式与解决方案

为了避免模型偏离自然语言的轨道或偏离任务目标,作者团队采取了一些巧妙的解决方案:

世界建模损失用于帮助智能体学习更长期、更合理的策略,避免出现像等待策略(Waiting Strategy,智能体一直待在起始房间不动,然后投票淘汰移动过的玩家)等退化现象。这些策略虽然在短期内有效,但严重破坏了游戏的真实性和挑战性。

最终,完整的损失函数结合了强化学习(RL)、听力(Listening)、表达(Speaking)、世界建模(WM)

通过新颖的“听说奖励” 结合 KL 约束和世界建模损失等优化,斯坦福团队的研究突破了 RL 传统上的局限,训练出来的 模型在社交推理任务中展现出了更接近人类的行为模式,为多智能体协作和复杂场景下的语言模型训练提供了新范式。

RWKV 模型:胜率碾压 + 类人行为涌现

论文选择 RWKV-4-World 模型作为语言模型基座,实验结果验证了其强大性能:

1. 胜率碾压

完整训练框架(RL + 听说)的 模型(RWKV-4-World-1.5B), Among US 游戏胜率是传统强化学习模型的 2 倍且优于 4 倍参数量的 RWKV 基底模型(RWKV-4-World-7B)

不同算法训练的模型在“基础环境”中的胜率,经过完整框架训练的 RWKV 模型(橙色)明显领先传统 RL 模型。
💡Tips

上图:不同算法训练的模型在基础环境(2 × 2 网格,每名队员 4 项任务,共 5 名玩家)中的胜率,经过完整框架训练的 RWKV 模型(橙色)胜率大幅领先传统 RL 模型(浅灰色)。

在未训练过的环境配置中(如不同地图布局、任务数量),RWKV 模型仍能保持高胜率,展现了强大的泛化能力。

rwkv-win-rate
💡Tips

上图:使用不同算法训练的 AI 船员,在不同环境配置下的获胜率,环境修改包括更改游戏地图形状、任务数量和玩家数量。

2. 类人行为涌现

AI 学会指控嫌疑人(如“Player Green 在尸体房间离开”),会提供证据支持自己的观点。甚至会编造谎言,试图误导队友(类似人类玩家策略)。

3. 强适应能力

值得一提的是,游戏里的内鬼也是特别强化(反指控、转移焦点等)过的,其损失函数:

然而,面对自适应训练的内鬼,RWKV 船员仍能保持 50% 以上胜率,展现了强大的抗干扰能力。

实验数据验证了 RWKV 在多智能体社交推理中的卓越性能,更揭示了 RWKV 在轻量化部署与长序列决策场景的独特优势。

未来工作

论文作者表示后续将开展更多 RWKV 相关研究,包括:

此外,作者认为 RWKV 的 state tuning[2] 在多智能体的研究上拥有极大的优势。  通过切换 state 来改变智能体的“基因”,远比切换模型、切换 LoRA 等方式更方便、更无缝。

RWKV 端侧部署优化

UVa(弗吉尼亚大学) 团队提出了 RWKV-Lite,一套从模型架构优化到后训练压缩的高效 RWKV 模型压缩技术

在保持模型准确率基本不变的情况下,RWKV-Lite 将内存占用降低了 3.4 – 5 倍;若结合量化,整体内存需求甚至可降低 10 倍。与此同时,该方法带来的计算开销微乎其微,非常适合边缘部署。

该论文已被机器学习顶会 ICML 2024 收录。论文地址:https://arxiv.org/html/2412.10856v3[3]

论文首页

RWKV-Lite 的压缩方向大致有以下三点:

    低秩近似(Low-Rank Approximation)

针对 RWKV 块中的投影权重矩阵(如 channel-mixtime-mix 层),通过奇异值分解(SVD)将大型矩阵拆分为两个低秩矩阵,减少参数量的同时保留关键信息。

实验显示,低秩压缩可实现 4 倍参数压缩,且可以通过持续训练(Continual Training)恢复精度损失。

    稀疏性利用(Sparsity Exploitation)

发现 RWKV 的 FFN 层存在显著稀疏性(67%-83% 的神经元激活率为零),提出混合预测器(MLP + 1-bit 量化)动态加载关键神经元权重,减少推理时内存占用。

    嵌入缓存与分层分类头

💡Tips

下图是论文演示在一个可穿戴设备上运行压缩后的 RWKV 模型(带可视化屏幕),开发板型号为 Orange Pi Zero 2W,板载 CPU 1.5GHz 4x Cortex-A53,内存 4GB 。

运行 RWKV 模型的可穿戴设备

欢迎开展 RWKV 学术研究

我们欢迎大家基于最新最强的 RWKV-7 架构开展学术研究!

最新发布的 RWKV-7 2.9B 模型在各类评测中表现出色,其英文和多语言能力显著超越所有同尺寸模型(英文评测 71.1%,多语言评测 62.3%),超越了包括 Llama 3.2 3B(英文评测 68.7%,多语言评测 57.3%)、Qwen2.5 3B(英文评测 68.6%,多语言评测 57.0%)等知名优秀开源模型。

此外,我们为 RWKV 学术研究提供全面的支持和激励,包括:

💡Tips

微软已经将 RWKV 全面引入 Windows 10/11 系统,足以证明 RWKV 的端侧优势。

Windows 系统内置 RWKV 运行库

相关链接

[1]

RWKV 多智能体强化学习论文: https://arxiv.org/abs/2502.06060

[2]

state tuning: https://rwkv.cn/RWKV-Fine-Tuning/State-Tuning

[3]

RWKV-Lite 论文: https://arxiv.org/html/2412.10856v3


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RWKV架构 多智能体研究 端侧优化 学术研究
相关文章