RWKV元始智能 2024年10月28日
关于 RWKV 架构的一些谣言
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

在RWKV-6论文分享会上,侯皓文博士对RWKV模型架构的一些谣言进行辟谣。通过实验对比,证明RWKV训练速度并非如谣言所说,其在上下文长度较长时训练速度更快,收敛速度也不慢,且在不同数据量级上,RWKV和Transformer模型的MMLU优势不同。后续将增加数据继续训练以验证其在更大数据集的表现。

🎯RWKV训练效率方面,当上下文长度较短时,训练速度略慢于GPT + flash_attn;当上下文长度较长时(8k),训练速度比GPT + flash_attn更快。且RWKV模型架构处于快速迭代期,后续会有更高效训练实现。

💡RWKV收敛速度并不慢,RWKV - Mamba的Loss曲线对比显示,RWKV-6的收敛速度显著快于Mamba;RWKV-v6-7B的MMLU 5-shot分数接近Llama2-7B。

🔍在不同数据量级上,RWKV和Transformer模型有不同的MMLU优势。如在1.1T tokens数据下训练,Mamba 2的MMLU显著低于Transformer;在3.5T tokens数据下训练,Mamba 2的MMLU又超过Transformer。

原创 RWKV 2024-06-24 21:26 广东

在RWKV-6 论文分享会上,侯皓文博士针对 RWKV 模型架构的一些谣言进行了辟谣。

在 6 月 23 日晚上举办的 RWKV-6 论文分享会上,论文作者之一侯皓文博士针对 RWKV 模型架构的一些谣言进行了辟谣。

谣言1:RWKV训练效率低,比 Transformer 慢很多

我们进行了 RWKV-6 & Transformer 的训练速度对比实验,实验结果如下:

实验证明,当上下文长度较短时,RWKV 的训练速度略慢于 GPT+ flash_attn。当上下文长度较长时(8k),RWKV 的训练速度比 GPT + flash_attn 更快一些。

需要强调的是,本次用于对比的 Transformer 架构为 karpathy 的 nanoGPT,nanoGPT 的训练代码优化程度非常高,已经实现了混合精度 + compile + flash_attn。

而 RWKV 的模型架构正于快速迭代期,目前的训练代码并非完全优化的版本,后续会有更高效的 RWKV6 训练实现。

谣言2:RWKV 收敛慢,MMLU 分数很差

RWKV 的收敛速度并不慢,下图是 RWKV - Mamba 的 Loss 曲线对比,可以看到 RWKV-6 的收敛速度显著地快于 Mamba:

而 MMLU 部分,RWKV-v6-7B 的 MMLU 5-shot 分数是 44.0,很接近 Llama2-7B 的 45.3 分:

谣言3:相同数据训练下, RWKV MMLU 分数低于 Transformer

如果单纯地对比 RWKV-6-7B(使用 2.5T tokens 训练) 和 llama2-7B(在 2T tokens上训练) 的 MMLU 分数,我们可能会得出“RWKV MMLU 分数低于 Transformer”这个结论。

但当我们深入探究这一问题,又惊奇地发现:在不同的数据量级上,RWKV 和 Transformer 模型有不同的 MMLU 优势。

这一结论来自英伟达的研究 An Empirical Study of Mamba-based Language Models ,https://arxiv.org/abs/2406.07887

论文团队的实验显示, 1.1T tokens 数据下训练时,Mamba 2 的 MMLU 显著地低于 Transformer :

(0-shot MMLU 分数:Transformer=38.32 、Mamba 2=28.94)

但是,如果训练数据来到 3.5T tokens ,Mamba 2 的 MMLU 又超过了 Transformer :

(0-shot MMLU 分数:Transformer=45.69、Mamba 2=47.25)

增加相同的训练数据,两者的 MMLU 优化却截然不同, 这是否说明 Transformer 的学习过程和 Mamba 这样的非 Transformer 架构完全不同

换而言之,如果我们在此实验的基础上继续增加训练数据,Mamba 会不会更稳定地超越 Transformer ?

鉴于 Mamba2 架构的设计和性能处于 RWKV-5 和 RWKV-6 之间,我们相信 RWKV 也会后来居上。

为了深入地探究这个问题,我们决定在 RWKV V2 数据集(2.5T tokens)的基础上再增加 3T 数据继续训练 RWKV ,以验证 RWKV 在更大数据集的表现,让我们拭目以待!


以上是 RWKV-6 论文分享会的“辟谣部分”,后续我们还会发布“RWKV-6 论文解析”回顾稿,敬请关注公众号消息!

此外,关注公众号并发送“RWKV-6论文解读”,可下载侯皓文博士的 RWKV-6 分享会 PDF

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RWKV 模型架构 训练效率 MMLU
相关文章