关于 RWKV 架构的一些谣言

原创 RWKV 2024-06-24 21:26 广东

在RWKV-6 论文分享会上，侯皓文博士针对 RWKV 模型架构的一些谣言进行了辟谣。

在 6 月 23 日晚上举办的 RWKV-6 论文分享会上，论文作者之一侯皓文博士针对 RWKV 模型架构的一些谣言进行了辟谣。

谣言1：RWKV训练效率低，比 Transformer 慢很多

实验证明，当上下文长度较短时，RWKV 的训练速度略慢于 GPT+ flash_attn。当上下文长度较长时(8k)，RWKV 的训练速度比 GPT + flash_attn 更快一些。

需要强调的是，本次用于对比的 Transformer 架构为 karpathy 的 nanoGPT，nanoGPT 的训练代码优化程度非常高，已经实现了混合精度 + compile + flash_attn。

而 RWKV 的模型架构正于快速迭代期，目前的训练代码并非完全优化的版本，后续会有更高效的 RWKV6 训练实现。

而 MMLU 部分，RWKV-v6-7B 的 MMLU 5-shot 分数是 44.0，很接近 Llama2-7B 的 45.3 分：

如果单纯地对比 RWKV-6-7B（使用 2.5T tokens 训练）和 llama2-7B（在 2T tokens上训练）的 MMLU 分数，我们可能会得出“RWKV MMLU 分数低于 Transformer”这个结论。

但当我们深入探究这一问题，又惊奇地发现：在不同的数据量级上，RWKV 和 Transformer 模型有不同的 MMLU 优势。

这一结论来自英伟达的研究 An Empirical Study of Mamba-based Language Models ，https://arxiv.org/abs/2406.07887。

论文团队的实验显示，在 1.1T tokens 数据下训练时，Mamba 2 的 MMLU 显著地低于 Transformer ：

（0-shot MMLU 分数：Transformer=38.32 、Mamba 2=28.94）

但是，如果训练数据来到 3.5T tokens ，Mamba 2 的 MMLU 又超过了 Transformer ：

（0-shot MMLU 分数：Transformer=45.69、Mamba 2=47.25）

增加相同的训练数据，两者的 MMLU 优化却截然不同，这是否说明 Transformer 的学习过程和 Mamba 这样的非 Transformer 架构完全不同？

换而言之，如果我们在此实验的基础上继续增加训练数据，Mamba 会不会更稳定地超越 Transformer ？

鉴于 Mamba2 架构的设计和性能处于 RWKV-5 和 RWKV-6 之间，我们相信 RWKV 也会后来居上。

为了深入地探究这个问题，我们决定在 RWKV V2 数据集（2.5T tokens）的基础上再增加 3T 数据继续训练 RWKV ，以验证 RWKV 在更大数据集的表现，让我们拭目以待！

以上是 RWKV-6 论文分享会的“辟谣部分”，后续我们还会发布“RWKV-6 论文解析”回顾稿，敬请关注公众号消息！

此外，关注公众号并发送“RWKV-6论文解读”，可下载侯皓文博士的 RWKV-6 分享会 PDF 。