RWKV元始智能 03月20日
RWKV-7 论文发布:引入广义 Delta Rule,表达力超越 Transformer
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

RWKV-7架构论文正式发布,通过一系列创新在计算效率、任务表现和模型表达力上全面超越Transformer和RWKV-6架构,并在多项性能测试中表现出色

📌RWKV-7通过创新在多方面超越Transformer和RWKV-6

📌引入广义Delta Rule及多个优化,增强模型表现力

📌对RWKV-6的架构进行多项改进,提高训练和推理速度

📌在多个实验中展现出优异的性能,如语言能力测试等

原创 Rocky | manjuan 2025-03-19 23:04 广东

计算效率、任务表现和模型表达力全面超越 Transformer 和过去的 RWKV-6 架构

RWKV-7 架构论文《RWKV-7 "Goose" with Expressive Dynamic State Evolution》于 2025 年 3 月 18 日正式发布。

论文地址:https://arxiv.org/abs/2503.14456

通过一系列创新(例如广义 Delta Rule),RWKV-7 在计算效率、任务表现和模型表达力全面超越 Transformer 和过去的 RWKV-6 架构。

在训练数据远低于 Qwen2.5、Llama3.2 等开源模型的前提下,RWKV-7-World 模型的语言建模能力在所有开源 3B 规模模型中达到 SoTA 水平。

通过引入广义 Delta Rule,RWKV-7 使用 2 层即可实现 复杂度的 状态跟踪问题使用 4 层即可识别所有正则语言,表达力显著超越了 Transformers 的 限制。

RWKV-7 架构概述

RWKV-7 的核心机制是引入并优化广义 Delta Rule 作为 RWKV-7 隐藏状态的演化机制(State Evolution):

Recent RNN architectures

RWKV-7 的广义 Delta Rule 包含多个优化:

RWKV-7 架构图概览:

RWKV-7-architecture-overview

时间混合模块( 演化机制)

RWKV-7 架构中的时间混合(Time Mix)反映了 RWKV-7 的多头矩阵值状态 (Weighted Key Value) 的动态演化过程。

递归形式的 计算公式:

其中 是“上下文权重衰减”, 是“上下文学习率”(in-context learning rate,ICLR)。

💡Tips

原始的 delta rule 公式在每个时间步移除旧值,移除的程度由标量 控制。RWKV-7 将 定义为向量,允许每个状态通道有不同的移除量,增强对状态信息的操控能力。

下图是 RWKV-7 的 state 动态更新机制图示。注意图中 4×4 的 state 仅为演示,实际每个小模型的 state 矩阵是 64×64。

illustration-of-state-evolution

通过动态计算更新 state,RWKV-7 可以从上下文动态学习 key 和 value 之间的关系,使用更新后的 state 处理新的输入,得到最准确的输出。

对比 RWKV-6 的架构改进

下图为 RWKV-6 的架构图概览,橙色标记是 RWKV-7 相对 RWKV-6 的主要改动部分:

RWKV-6-架构图

    通道混合层(channel mixing)优化

移除 RWKV-6 的 Receptance Gating ( 门控矩阵 ),改为普通双层 ReLU^2 MLP,减少了计算复杂度:

    时间混合层(time mixing)优化

RWKV-6 引入动态数据依赖的 Token-Shift,RWKV-7 为提高训练和推理速度,移除了 Token-Shift 的动态数据依赖,回归 RWKV-4 和 RWKV-5 风格的简单 Token-Shift。

具体设计思路请参考论文附录 F Additional Architecture Discussion

    低秩投影(Low-Rank Projection)优化

新增 参数(in-context learning rate)及对应的低秩 MLP,新增 的残差控制低秩 MLP,将 参数变为低秩 MLP。

实验

我们进行了多个实验以评估 RWKV-7 的各项性能,所有的测试均使用 fp32 精度。同时,除了 MMLU 使用 5-shot 外,其他测试均使用 0-shot。

英语及多语言能力测试

RWKV-7 模型基于 LM Evaluation Harness(lm-eval v0.4.3) 进行了一系列常见的英语和多语言基准评估,且与前沿开源模型进行了对比。

结果显示,RWKV-7 仅使用前沿模型 (如 Qwen2.5) 的三分之一训练数据,即能在英语能力看齐前沿模型,且多语言能力显著更强。

英语评测结果
多语言评测结果

Uncheatable Eval(无法作弊的压缩率测试)

为了避免数据泄露造成的评估指标失效,我们进行了 Uncheatable Eval —— 使用最新的论文和新闻文章等实时数据,评估开源大语言模型的真实建模能力和泛化能力。

我们使用 2025 年 1 月之后最新数据对所有模型进行测试,结果显示 RWKV-7 在同等参数大小的前沿模型中依然具有强竞争力。

RWKV-7-Paper-Uncheatable-Eval

我们正在训练数据更多的 RWKV7-G1 系列模型,目标是在这个榜单同样超越所有其他前沿模型。

Associative Recall(联想记忆力)

Associative Recall 用于评估模型在给定上下文中回忆起先前遇到的信息的能力。

以下表格是不同权重矩阵大小的 RWKV-7 在不同输入长度和键值对大小的回忆能力,表中数字为具体的百分比,打勾 ✓ 项意味着回忆率大于 99%。

状态维度仅为 8192 时,RWKV-7 就能回忆起【序列长度2048 + 256个键值对】的 72.93% 信息,可见其状态效率极高。

RWKV-7-Paper-MQAR-test

长文本测试

我们以常用的长文本数据集 PG19 作为指标,测试 RWKV 模型在长文本的语言建模能力,loss 越低越好。

在 0.1B Pile 模型的对比测试显示,RWKV-7-Pile 的长文本建模能力显著强于前几代模型(RWKV-4/6)以及 Mamba 1/2 模型。

RWKV-7-Paper-PG19-between-mamba
💡Tips

这里的所有 Pile 模型基于相同的数据集和分词器,因此是在模型架构层面的公平对比。

进一步的实验表明,在长上下文数据进行微调,可进一步增强 RWKV-7 的长上下文能力

使用 128k 上下文数据微调后的 RWKV-7-2.9B-128k-tuned 模型,在 10k 以上的上下文长度表现比 RWKV-7 base model 显著提升:

RWKV-7-Paper-PG19-loss

状态追踪能力

Group Multiplication 是广受认可的状态追踪能力评估方法,主流测试方法是找出模型在进行群乘法任务(group multiplication task)时超过 95% 准确率所需的最小层数

以下是 RWKV-7 相较于其他架构的状态追踪能力对比。RWKV-7 最多只需两层就可以追踪很长的状态序列,尽管比经典 RNNs 稍弱,但相较于 Trasnsformer、Mamba 和 S4 均显著更强(它们都需要使用越来越多层的模型才能完成这个任务):

RWKV-7-Paper-group-multiplication-task

经典 RNN 的状态追踪能力强,但难以并行训练,且存在梯度消失和长文本建模能力缺陷。

VisualRWKV

RWKV-7 也强化了多模态能力,在使用相同视觉编码器的条件下,0.1B 的 VisualRWKV-7 在 VQA GQA 任务的视觉理解能力就超过了 1.6B 的 VisualRWKV-6 模型。

RWKV-7-Paper-Visual-Language

未来工作

未来 RWKV-7 的工作包括,收集更多的数据以训练更大的模型,探索训练思维链推理(Chain-of-Thought Reasoning)模型,测试 DeepSeek 报告中提及的技术(例如 Mixture-of-Experts, Multi-Token Prediction 以及 FP8 Training),以及 RWKV 后续版本的研发。

补充内容

更多架构和训练细节

我们使用 D 表示模型维度数,L 表示层数,下表是 RWKV-7 各个模型的参数信息:

Model NameLDState Size(WKV+ Shift)Parameters
RWKV7-World3-0.1B12768589824+ 18432191034624
RWKV7-World3-0.4B2410241572864+ 49152450767872
RWKV7-World3-1.5B2420483145728+ 983041527404544
RWKV7-World3-2.9B3225605242880+ 1638402947735040

RWKV-7 模型参数计算公式:

RWKV-7 的详细架构图:

RWKV-7-architecture-detail

更多架构和训练细节,详见论文附录 E Additional Architectural and Training Details

训练数据集组成

RWKV World v3 数据集在 RWKV World v2 数据集的基础上进行了扩展,总数据量增大到约 3.1T Tokens,所有数据都被赋予了相等的权重。

对于 World v2 的部分子数据集中占比过高的语言,我们进行了一些采样。v2.1 和 v3 版本中所有新添加的数据都被赋予相等的权重。

RWKV-7-World-v3-dataset

RWKV World v3 数据细节,详见论文附录 B Training Dataset Details

消融实验

为了验证 RWKV-7 架构改进的有效性,我们在 MiniPile 数据集上进行了消融实验。

以下的实验结果展示了 RWKV-7 各项改进的有效性:

RWKV-7-Paper-Ablation-Experiments

消融实验,详见论文附录 K Ablation Experiments

四层 RWKV-7 识别任意正则语言

正则语言指的是那些可以被 DFA(确定性有限自动机)识别的语言,要证明 RWKV-7 可以识别任意正则语言,只需要证明其可以模拟任意 DFA 即可。

我们通过推导使用 RWKV-7 的第一层压缩 DFA 转移矩阵,和使用最后一层的 wkv 头来实现转移矩阵,能够达成的效果,证明了四层 RWKV-7 即可识别任意正则语言,表达力显著强于 Transformer。

详见论文附录 D.2 Main Result: RWKV-7 Can Recognize Any Regular Language , D.3 Detailed Proof of Theorem 3

状态可视化

RWKV-7 的 WKV 状态矩阵的 RMS(均方根)值显著低于 RWKV-5 和 RWKV-6。RWKV-7 的 WKV 矩阵元素始终保持在O (1) 量级(即无异常值,且不随上下文长度增长),而 RWKV-5 和 RWKV-6 则可能产生千数量级的极端值。

这表明 RWKV-7 在训练和推理过程中具有更优的数值稳定性:

RWKV-7-Paper-WKV-Visualization

状态可视化检查,详见论文附录 J State Inspections


RWKV-7 论文地址:https://arxiv.org/abs/2503.14456

加入 RWKV 社区

欢迎大家加入 RWKV 社区,可以从 RWKV 中文官网了解 RWKV 模型,也可以加入 RWKV 论坛、QQ 频道和 QQ 群聊,一起探讨 RWKV 模型。

关注我们:


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RWKV-7 模型架构 性能测试 创新优化
相关文章