RWKV元始智能 2024年12月20日
RWKV-7:极先进的大模型架构,长文本能力极强
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

RWKV-7 是一种先进的大模型架构,它超越了传统的 attention 机制,实现了真正的持续学习。该模型在保持 RNN 结构的同时,具备强大的长文本处理能力和上下文学习能力。RWKV-7 在大海捞针测试和长文本外推测试中均表现出色,无需微调即可处理长达 32k+ 的文本。模型对比显示,RWKV-7 在多项任务中优于其他模型,尤其在长文本理解方面更具优势。此外,RWKV-7 的深窄模型设计进一步提升了性能,并且小尺寸模型在多语言处理能力上表现突出,更适合资源受限的场景。RWKV-7 的开源和相关工具的发布,为研究和应用提供了便利。

🚀RWKV-7 架构超越了传统的 attention 机制,采用动态状态演化,实现了真正的持续学习,可以解决传统 attention 无法解决的问题。

🎯RWKV-7 在大海捞针测试中表现出色,无需微调即可处理 16k 上下文,且在长文本外推测试中能达到 32k+ 长度,并能持续稳步下降 ppl,展现出强大的长文本处理能力。

🏆模型对比显示,RWKV-7 在各项英文和多语言测试中拥有显著优势,尤其在长文本材料问答任务 ReCoRD 评分上表现突出,表明它能更好地理解和使用长文本的信息。

🌐RWKV-7-World-0.1B 作为全球最强的 0.1B 多语言模型,支持 100+ 种语言和代码,且在模型设计上采用更少的神经网络层数,使得速度更快,更适合边缘设备等资源受限的推理场景。

🛠️RWKV-7 的训练和推理代码均已定稿,并有多种推理工具支持,同时社区正在积极开发更大参数的模型,为未来的研究和应用奠定了基础。

原创 Rocky Luo 2024-12-20 21:31 广东

RWKV-7 是一个真正的持续学习模型。

RWKV-7 是极先进的最新大模型架构,超越 attention / linear attention 范式,拥有强大的 in-context-learning(上下文学习)能力,可真正持续学习,在保持 100% RNN 的同时,拥有极强的长文本能力。

RWKV-7 架构性能表现

RWKV-7 的大海捞针测试

RWKV-7-World 0.1B(L12-D768)在 ctx 4k 预训练 1T tokens(world-v2.8),无需任何微调,即可完美通过 ctx 16k 的大海捞针。且 world 系列模型支持全球 100+ 种语言和代码。

niah-of-rwkv-7-world-0.1b

RWKV-7-Pile 0.4B(L24-D1024)在 ctx 4k 预训练 0.3T tokens(pile),无需任何微调,即可完美通过 ctx 16k 的大海捞针。

niah-of-rwkv-7-pile-0.4b

RWKV-7 的长文本外推测试

RWKV-7-Pile 系列模型,在 ctx 4k 预训练 0.3T tokens(pile),无需任何微调,即可自动外推到 ctx 32k+ 长度,且 ppl 随 ctx 增加持续稳步下降,说明还远未达到它的外推极限。

RWKV-7 外推到 ctx 32k+

下面是 RWKV-7 与 Mamba 的对比,所有模型(除-slimpj)都是在 Pile 训练:

RWKV-7 与 Mamba 对比,外推能力
?Tips

评测代码由社区完成:https://github.com/Jellyfish042/LongMamba

Pile 模型横向评测

我们对多款 Pile 模型进行了综合测评。这里的所有模型,基于相同的 EleutherAI/pile[1] 数据集训练,并使用相同的分词器(tokenizer)进行推理,所以是真正公平公正的模型性能对比。

我们对比了以下模型,涵盖 0.1B、0.4B、1.5B 三种参数:

从评测结果,可见 RWKV-7-Pile 在各项英文和多语言测试中,都拥有显著优势:

pile-models-eval

注意 RWKV-7 拥有显著更强的 ReCoRD 评分,这是长文本材料问答任务,表明 RWKV-7 能够更好地理解和使用长文本的信息。

此外,我们训练了两个“深窄”(更多的层数和更小的维度)的 RWKV-7-Pile 0.1B 模型 ,分别是 L25-D576 和 L33-D512,它们的综合性能更强:

pile-eval-with-l25-l33-rwkv

这表明 RWKV 架构可通过使用“深窄”尺寸,进一步提升性能。

0.1B 模型横向评测

RWKV-7-World-0.1B 是全球最强的 0.1B 多语言模型,在 world-2.8(1T tokens)数据训练后,拥有一流的英文能力,且多语言能力显著超越所有 0.1B 模型,支持全球 100+ 种语言和代码。

100m-model-eval

注意 RWKV-7-World-0.1B 在模型设计上保持 L12-D768 尺寸,而非 SmolLM2 的 L30-D576 尺寸。更少的神经网络层数(L12)使得 RWKV-7 的速度更快,更适合边缘设备等资源受限的推理场景,而且微调训练所需的数据和计算资源也更低。

这里的所有 RWKV 模型均已开源发布:HuggingFace 下载链接[2]

RWKV-7-World-0.1B 生成案例

作为仅 0.1B 参数的 L12-D768 小模型,RWKV-7-World-0.1B 拥有超越其尺寸的综合能力。以下是 RWKV-7-World-0.1B 的生成案例(使用 RWKV-Runner 运行):

multilang-case-english
multilang-case-code
multilang-case-jpn
multilang-case-chn-novel

其中的部分生成内容不准确,但考虑到,这是一个 0.1B L12-D768 的基底模型,尚未做任何 post-training,其性能可谓令人惊讶。

在 Huggingface Gradio Demo 测试 RWKV-7-World 0.1B[3]

我们正在训练更大参数的 RWKV-7 模型,具体的发布计划请见后文。

RWKV-7 架构介绍

RWKV-7 采用了动态状态演化(Dynamic State Evolution),超越了 attention / linear attention 范式 TC0 表达能力的根本限制。RWKV-7 拥有 NC1 的表达能力,使其可以解决许多 attention 无法解决的问题。

简单地说,传统注意力机制(如 Transformer 的 QKV-softmax-attention)会将多个 {}(key 和 value 的向量对)存储起来,通过 q(query,查询向量)去匹配 key,得到对应的 value 输出。

RWKV-7 不直接存储 {} 对,而是通过动态计算更新 state,从上下文动态学习 key 和 value 之间的关系,再使用更新后的 state 处理新的输入 (在 RWKV 中是 ) 并得到输出。

具体而言,RWKV-7 模型拥有一个内部模型 。它需要拟合一个简单的目标:对于给定的两个向量序列 {} 和 {},通过 (state)把 转化为 ,输出的 需要和目标的 尽量接近。

为实现这个目标,RWKV-7 在推理时,对于 L2 损失函数 自动模拟出动态的梯度下降,以此来持续训练内部模型

因此,RWKV-7 是一个真正的持续学习模型。

?Tips

有关 RWKV-7 的更详细设计思路(公式、伪代码等),请查看文章:RWKV-7 as a meta-in-context learner,从第一性原理真正理解

这种动态 State 演化机制,使得 RWKV-7 更擅长处理长上下文内容,拥有显著更强的长文本能力,且生成的内容更少出现自我重复,比各种 Transformer 和 RWKV-6 版本看上去更有连贯的思路。

RWKV-7 的架构图:

rwkv-7-architecture

RWKV-7 的训练和推理

RWKV-7 架构的训练和推理代码均已定稿,架构论文正在由彭博和社区成员联合撰写,欢迎大家参与,可在 EleutherAI 的 Discord 搜索 RWKV-papers 频道。

RWKV-7 训练代码可在 RWKV-LM[4] 仓库中查看,RWKV-PEFT 项目[5]已支持微调 RWKV-7 模型。

推理方面,RWKV pip 0.8.28[6] 版本、web-rwkv[7]Ai00[8]RWKV Runner[9] 等 RWKV 推理工具均已支持 RWKV-7 模型。

RWKV-7 模型发布计划

我们正在训练更大的 RWKV-7-World 模型,路线图如下:

模型数据集计划发布日期
RWKV-7-0.4BWorld-v2.9(2T)2025年1月上旬
RWKV-7-1.5BWorld-v3(3.1T)2025年1月下旬
RWKV-7-2.9BWorld-v3(3.1T)2025年2月中旬

请关注我们的公众号,第一时间接收 RWKV-7 的最新动态!

加入 RWKV 社区

RWKV 是一种创新的深度学习网络架构,它结合了 Transformer 与 RNN 的优点,同时实现高度并行化训练与高效推理。

欢迎大家加入 RWKV 社区!您可从 RWKV 官网了解 RWKV 模型,也可加入我们的 QQ 频道和群聊,一起探讨 RWKV 模型。

相关链接

[1]

EleutherAI/pile: https://huggingface.co/datasets/EleutherAI/pile

[2]

HuggingFace 下载链接: https://huggingface.co/BlinkDL

[3]

Huggingface Gradio Demo: https://huggingface.co/spaces/BlinkDL/RWKV-Gradio-1

[4]

RWKV-LM: https://github.com/BlinkDL/RWKV-LM

[5]

RWKV-PEFT 项目: https://github.com/JL-er/RWKV-PEFT

[6]

RWKV pip 0.8.28: https://pypi.org/project/rwkv/0.8.28/

[7]

web-rwkv: https://github.com/cryscan/web-rwkv

[8]

Ai00: https://github.com/Ai00-X/ai00_server

[9]

RWKV Runner: https://github.com/josStorer/RWKV-Runner


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RWKV-7 持续学习 大模型 长文本 RNN
相关文章