PENG Bo 2025-01-18 17:54 广东
RWKV-7 style RNN(目前还包括 Gated DeltaNet,Titans 等等)的表达力,已经在很多方面严格高于 attention。
💡Tips转自知乎用户 PENG Bo,原文链接:https://www.zhihu.com/question/9630107500/answer/82028592949
现在国内友商也开始验证 RNN 的 scaling,很欣慰。
我说过很多次,RNN 的 scaling 比 GPT 强。
因为现在的新型 RNN 在扩大后,state 也随之扩大,这是额外的收益。
例如 headsz64 的 1B 的 state 是 24x2048x64 = 3145728 维。
而 headsz64 的 7B 的 state 是 32x4096x64 = 8388608 维。
MiniMax-01 用了 RWKV-5 style(实际是 RetNet-改)的简单衰减,因为他们认为,如果有 attention,那么 RNN 层可以弱些(弱的训练快)。
但当你用 RWKV-7 作为 RNN,你会反而发现,把层换成 attention 不再降 loss,所以不需要 attention。
你的 RNN 得足够强,才有这个现象。
如果你发现把层换 attention 会降 loss,就说明你的 RNN 不够强。
因为 RWKV-7 style RNN(目前还包括 Gated DeltaNet,Titans 等等)的表达力,已经在很多方面严格高于 attention。
值得指出,很多论文压 baseline。如果实际测试,我们会发现 RWKV-7 在同等 statesz 下,总是最强最稳的。如果不信,可以联系我们测试。
RWKV-7 是完全开源开放的架构,欢迎大家用,也欢迎友商测试对比,我们会技术支持。
因为这里的生态链是【芯片 - 架构 - 模型 - 应用】,RWKV是独一无二的架构公司,我们会服务上下游的芯片和模型公司(当然,所有公司都会逐渐全部都做,哈哈)。
上个图,在炼的 RWKV-7 1.5B 相当强(表中炼了 72%,预计 1/28 炼好):
表中的 RWKV 都是纯 base model. No eval-maxxing. No HQ-data annealing. No post-training. 同时 fully multilingual(支持100+种世界语言,这会降低英语分数,所以各种刷榜模型都不敢上世界语言,很多也不敢多上代码。qwen2.5为了代码能力也是牺牲了英语分数)。
有趣的是,rwkv7在MMLU显著变强了(这里没做eval-maxxing,别和各种刷榜模型比,如果我想刷同样可以+10%以上):
rwkv6-v2.1-3b 32.38%
25%trained-rwkv7-v3-2b9 43.08%
35%trained-rwkv7-v3-2b9 45.24%
40%trained-rwkv7-v3-2b9 47.36%
rwkv6-v2.1-1b6 26.34%
38%trained-rwkv7-v3-1b5 33.89%
51%trained-rwkv7-v3-1b5 40.44%
60%trained-rwkv7-v3-1b5 40.77%
72%trained-rwkv7-v3-1b5 41.36%
我发现很多人不知道MMLU在测什么。
MMLU是选择题,这对于RNN模型特别难,因为transformer可以一直回看题干和ABCD选项,而RNN必须非常清晰地记住题干和ABCD选项。
你可以想想,如果有人口试你时,问你选择题,是不是难?是"盘外"的因素造成它难。
其实transformer没有记忆力,它对于每个token都需要重新看前文。RNN才有记忆力。
如果你换成,对每个选项算ppl之类,对于RNN就立刻简单了。
但 RWKV-7 style RNN 终于解决了选择题弱的问题,令人欣慰。说明它是真记住了,真懂了。
💡Tips知乎原文链接:https://www.zhihu.com/question/9630107500/answer/82028592949