原创 RWKV 2024-06-24 21:26 广东
在RWKV-6 论文分享会上,侯皓文博士针对 RWKV 模型架构的一些谣言进行了辟谣。
在 6 月 23 日晚上举办的 RWKV-6 论文分享会上,论文作者之一侯皓文博士针对 RWKV 模型架构的一些谣言进行了辟谣。
谣言1:RWKV训练效率低,比 Transformer 慢很多
我们进行了 RWKV-6 & Transformer 的训练速度对比实验,实验结果如下:
实验证明,当上下文长度较短时,RWKV 的训练速度略慢于 GPT+ flash_attn。当上下文长度较长时(8k),RWKV 的训练速度比 GPT + flash_attn 更快一些。
需要强调的是,本次用于对比的 Transformer 架构为 karpathy 的 nanoGPT,nanoGPT 的训练代码优化程度非常高,已经实现了混合精度 + compile + flash_attn。
而 RWKV 的模型架构正于快速迭代期,目前的训练代码并非完全优化的版本,后续会有更高效的 RWKV6 训练实现。
谣言2:RWKV 收敛慢,MMLU 分数很差
RWKV 的收敛速度并不慢,下图是 RWKV - Mamba 的 Loss 曲线对比,可以看到 RWKV-6 的收敛速度显著地快于 Mamba:
而 MMLU 部分,RWKV-v6-7B 的 MMLU 5-shot 分数是 44.0,很接近 Llama2-7B 的 45.3 分:
谣言3:相同数据训练下, RWKV MMLU 分数低于 Transformer
如果单纯地对比 RWKV-6-7B(使用 2.5T tokens 训练) 和 llama2-7B(在 2T tokens上训练) 的 MMLU 分数,我们可能会得出“RWKV MMLU 分数低于 Transformer”这个结论。
但当我们深入探究这一问题,又惊奇地发现:在不同的数据量级上,RWKV 和 Transformer 模型有不同的 MMLU 优势。
这一结论来自英伟达的研究 An Empirical Study of Mamba-based Language Models ,https://arxiv.org/abs/2406.07887。
论文团队的实验显示,在 1.1T tokens 数据下训练时,Mamba 2 的 MMLU 显著地低于 Transformer :
(0-shot MMLU 分数:Transformer=38.32 、Mamba 2=28.94)
但是,如果训练数据来到 3.5T tokens ,Mamba 2 的 MMLU 又超过了 Transformer :
(0-shot MMLU 分数:Transformer=45.69、Mamba 2=47.25)
增加相同的训练数据,两者的 MMLU 优化却截然不同, 这是否说明 Transformer 的学习过程和 Mamba 这样的非 Transformer 架构完全不同?
换而言之,如果我们在此实验的基础上继续增加训练数据,Mamba 会不会更稳定地超越 Transformer ?
鉴于 Mamba2 架构的设计和性能处于 RWKV-5 和 RWKV-6 之间,我们相信 RWKV 也会后来居上。
为了深入地探究这个问题,我们决定在 RWKV V2 数据集(2.5T tokens)的基础上再增加 3T 数据继续训练 RWKV ,以验证 RWKV 在更大数据集的表现,让我们拭目以待!
以上是 RWKV-6 论文分享会的“辟谣部分”,后续我们还会发布“RWKV-6 论文解析”回顾稿,敬请关注公众号消息!
此外,关注公众号并发送“RWKV-6论文解读”,可下载侯皓文博士的 RWKV-6 分享会 PDF 。