RWKV元始智能 01月20日
彭博:RWKV 路线的前景和 scaling 能力,感谢 MiniMax-01 验证 :-)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章介绍了RWKV-7 style RNN在表达力方面超越attention的观点,并指出新型RNN在扩大后,state也会随之扩大,带来额外收益。对比了RWKV-5和RWKV-7,强调了足够强的RNN可以替代attention层。同时,文章还指出RWKV-7在同等statesz下表现最强最稳。RWKV-7是完全开源开放的架构,支持多语言,在MMLU测试中表现出色,解决了RNN在选择题方面的弱势,表明其真正具备了记忆和理解能力。作者欢迎大家测试对比,并表示RWKV会服务上下游的芯片和模型公司。

💡RWKV-7 style RNN的表达力在很多方面已超越attention,其scaling能力优于GPT,扩大后state也随之扩大,带来额外收益。

💪当RNN足够强大时,可以替代attention层,而如果替换attention层反而降低loss,则说明RNN还不够强。RWKV-7在同等statesz下表现最强最稳。

🌍RWKV-7架构完全开源开放,支持100+种世界语言,在MMLU测试中表现出色,解决了RNN在选择题方面的弱势,证明其具备真正的记忆和理解能力。

PENG Bo 2025-01-18 17:54 广东

RWKV-7 style RNN(目前还包括 Gated DeltaNet,Titans 等等)的表达力,已经在很多方面严格高于 attention。

?Tips

转自知乎用户 PENG Bo,原文链接:https://www.zhihu.com/question/9630107500/answer/82028592949

现在国内友商也开始验证 RNN 的 scaling,很欣慰。

我说过很多次,RNN 的 scaling 比 GPT 强。

因为现在的新型 RNN 在扩大后,state 也随之扩大,这是额外的收益。

例如 headsz64 的 1B 的 state 是 24x2048x64 = 3145728 维。

而 headsz64 的 7B 的 state 是 32x4096x64 = 8388608 维。

MiniMax-01 用了 RWKV-5 style(实际是 RetNet-改)的简单衰减,因为他们认为,如果有 attention,那么 RNN 层可以弱些(弱的训练快)。

但当你用 RWKV-7 作为 RNN,你会反而发现,把层换成 attention 不再降 loss,所以不需要 attention。

你的 RNN 得足够强,才有这个现象。

如果你发现把层换 attention 会降 loss,就说明你的 RNN 不够强。

因为 RWKV-7 style RNN(目前还包括 Gated DeltaNet,Titans 等等)的表达力,已经在很多方面严格高于 attention。

值得指出,很多论文压 baseline。如果实际测试,我们会发现 RWKV-7 在同等 statesz 下,总是最强最稳的。如果不信,可以联系我们测试。

RWKV-7 是完全开源开放的架构,欢迎大家用,也欢迎友商测试对比,我们会技术支持。

因为这里的生态链是【芯片 - 架构 - 模型 - 应用】,RWKV是独一无二的架构公司,我们会服务上下游的芯片和模型公司(当然,所有公司都会逐渐全部都做,哈哈)。

上个图,在炼的 RWKV-7 1.5B 相当强(表中炼了 72%,预计 1/28 炼好):

表中的 RWKV 都是纯 base model. No eval-maxxing. No HQ-data annealing. No post-training. 同时 fully multilingual(支持100+种世界语言,这会降低英语分数,所以各种刷榜模型都不敢上世界语言,很多也不敢多上代码。qwen2.5为了代码能力也是牺牲了英语分数)。

有趣的是,rwkv7在MMLU显著变强了(这里没做eval-maxxing,别和各种刷榜模型比,如果我想刷同样可以+10%以上):

rwkv6-v2.1-3b 32.38%
25%trained-rwkv7-v3-2b9 43.08%
35%trained-rwkv7-v3-2b9 45.24%
40%trained-rwkv7-v3-2b9 47.36%
rwkv6-v2.1-1b6 26.34%
38%trained-rwkv7-v3-1b5 33.89%
51%trained-rwkv7-v3-1b5 40.44%
60%trained-rwkv7-v3-1b5 40.77%
72%trained-rwkv7-v3-1b5 41.36%

我发现很多人不知道MMLU在测什么。

MMLU是选择题,这对于RNN模型特别难,因为transformer可以一直回看题干和ABCD选项,而RNN必须非常清晰地记住题干和ABCD选项。

你可以想想,如果有人口试你时,问你选择题,是不是难?是"盘外"的因素造成它难。

其实transformer没有记忆力,它对于每个token都需要重新看前文。RNN才有记忆力。

如果你换成,对每个选项算ppl之类,对于RNN就立刻简单了。

但 RWKV-7 style RNN 终于解决了选择题弱的问题,令人欣慰。说明它是真记住了,真懂了。


?Tips

知乎原文链接:https://www.zhihu.com/question/9630107500/answer/82028592949

关注我们:

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RWKV-7 RNN Attention MMLU 深度学习
相关文章