RWKV元始智能 03月01日
RWKV-7 论文即将发布,推理模型 G1 系列训练中!国外社区发布 72B 模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了RWKV-7的最新进展。RWKV-7的核心在于其独特的模型训练方式,它通过在单个模型内部训练多个小模型来实现更强大的推理能力。文章详细解释了RWKV-7的架构设计,并对比了其与Attention机制的差异,突显了RWKV-7的优越性。此外,文章还发布了RWKV-7 “GooseOne” (G1)系列推理模型的发布计划,并介绍了使用numpy实现RWKV-7推理以及体验预训练RWKV-7模型的方法。最后,文章还提及了从Qwen 2.5迁移到RWKV-7的Qwerky-72B模型,并邀请大家加入RWKV社区。

💡RWKV-7架构的核心在于其内部包含多个小模型,并在推理过程中自动训练这些小模型,每个小模型的参数构成了RWKV-7的state,通过这种方式,RWKV-7能够实现比attention更强大、更优美的架构。

🚀RWKV-7 “GooseOne” (G1)系列模型基于World v3.5数据集训练,包含0.1B/0.4B/1.6B/2.9B四种参数规模,并已公布详细的发布计划,目标是全面超越Qwen 2.5和Llama 3.x系列。

🐍RWKV-LM仓库提供了一段仅用100行numpy代码即可实现RWKV-7推理的代码,其中RWKV-7模型在numpy中仅需50行代码,为开发者提供了便捷的实现方式。

🤝海外RWKV社区开源了从Qwen 2.5迁移到RWKV-7的Qwerky-72B模型,该模型基于新颖的模型迁移方法,可以用极低的成本将使用softmax attention的大模型快速微调为RWKV模型,无需从头开始预训练。

原创 Rocky Luo 2025-02-27 19:29 广东

RWKV-7 最新、最全的动态

其实 RWKV-7 是训练一个模型,使其可以自动训练模型中的模型。每个 RWKV-7 内有多个小模型,RWKV-7 在推理时会自动训练这些小模型。RWKV-7 的 state 就是这些小模型的参数。

例如 RWKV-7 7B 有 32 层,每层有 64 个小模型,每个小模型有 64×64 个参数。所以 RWKV-7 7B 内共有 32×64 = 2048 个小模型。

那么 RWKV-7 7B 的 state 是 2048×64×64 = 8388608 维。RWKV-7 7B 每推理一步,这 2048 个小模型都自动学习一步,更新 state 的 8388608 个参数。

因此 RWKV-7 是个很强的架构,它比 attention 更强,更优美。

?Tips

下图是 RWKV-7 每个小模型的 state 更新机制。图中 4×4 的 state 仅为演示,实际每个小模型的 state 矩阵是 64×64。

RWKV-7 的 state 更新机制

下图是 attention 和 RWKV 的对比:

上:attention 下:RWKV
?Tips

有关 RWKV-7 的更详细设计思路(公式、伪代码等),请查看文章:RWKV-7 as a meta-in-context learner,从第一性原理真正理解

训练更强的 RWKV7-G1 系列推理模型

此前我们发布了 RWKV-7 "Goose" 系列基底模型,包括 0.1B/0.4B/1.6B/2.9B 四种参数规模,基于 3.1T tokens 的 World v3 数据集训练。

现在,我们准备了更多网页、数学、代码和 reasoning 数据,构建了 World v3.5 数据集,总数据为 5.16T tokens。

我们正在基于 World v3.5 数据集继续训练 RWKV-7 "Goose" 系列模型(0.1B/0.4B/1.6B/2.9B),并命名为 RWKV7-G1("GooseOne")系列推理模型。据测试,最小的 G1 0.1B 就已能实现推理过程。

G1 系列模型的发布计划:

模型发布计划
G1 0.1B3 月 8 日
G1 0.4B3 月下旬
G1 1.6B4月
G1 2.9B5月

我们将观察 World v3.5 数据集的效果,同时准备更大更优的数据集 World v3.7,用于 G1 7B 训练。

基于新数据集的 G1 系列,目标是全面超越 Qwen 2.5 和 Llama 3.x 系列。

请关注我们的公众号“RWKV元始智能”,第一时间获取 RWKV 最新动态!

RWKV-7 论文即将发布

RWKV-7 架构的论文正在由全球 RWKV 社区快速撰写中,我们计划在 3 月初发布 arxiv 预印本

我们欢迎所有感兴趣的朋友参与 RWKV-7 论文的撰写、修改和校对。参与方式:在 EleutherAI 的 Discord 搜索加入 RWKV-papers 频道。

link-to-rwkv-7-paper-chanle

纯 numpy 实现 RWKV-7 推理

RWKV-LM 现已更新一段代码,只需 100 行 numpy 代码,即可实现 RWKV-7 推理https://github.com/BlinkDL/RWKV-LM/blob/main/RWKV-v7/rwkv_v7_numpy.py[1]

其中,RWKV-7 模型在 numpy 写完只需 50 行代码:

rwkv-in-numpy

使用 RWKV-LM 体验预训练 RWKV-7 模型

我们准备了使用 RWKV-LM 仓库 + Minipile 数据体验预训练 RWKV-7 模型的快速教程。

提前准备:

在你的 Linux 工作区依次运行以下代码:

# 克隆 RWKV-LM 仓库
git clone https://github.com/BlinkDL/RWKV-LM
# 安装 CUDA 版本的 pytorch(如果你已经安装 pytorch,可跳过这步)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126  
# 安装其他 RWKV 训练所需的软件
pip install pytorch-lightning==1.9.5 deepspeed wandb ninja --upgrade
# 进入 RWKV-LM/RWKV-v5 目录
cd RWKV-LM/RWKV-v5
# 创建一个 data 文件夹
mkdir -p data
# 下载 binidx 格式的 minipile 数据集
wget --continue -O data/minipile.idx https://huggingface.co/datasets/BlinkDL/minipile-tokenized/resolve/main/rwkv_vocab_v20230424/minipile.idx
wget --continue -O data/minipile.bin https://huggingface.co/datasets/BlinkDL/minipile-tokenized/resolve/main/rwkv_vocab_v20230424/minipile.bin
# 运行初始化脚本,初始化 RWKV 模型
sh demo-training-prepare.sh 
# 运行训练脚本,使用 minipile 数据集预训练 RWKV-7 0.1B 模型
sh demo-training-run.sh

如果你此前未曾登录 WandB,运行训练脚本时 WandB 可能会提示你选择一项:

wandb-choice

成功开始训练后应该如下图一般,命令行显示 Epoch训练步数进度条(41/2520),以及时间、loss 等信息。WandB 会出现 loss 曲线等可视化图形:

rwkv-7-pre-training

Qwerky 72B:从 Qwen 2.5 迁移到 RWKV-7

从 Qwen 2.5 迁移到 RWKV-7 的 Qwerky-72B 现已由海外 RWKV 社区开源:https://huggingface.co/featherless-ai/Qwerky-72B-Preview[3]

Qwerky-72B 基于海外 RWKV 社区提出的新颖模型迁移方法,可将使用 softmax attention (如 Qwen 和 LLaMA)的大模型用极低的成本(例如在单台 H800 训练几天)快速微调为 RWKV 模型,而无需从头开始预训练。

加入 RWKV 社区

欢迎大家加入 RWKV 社区,可以从 RWKV 中文官网了解 RWKV 模型,也可以加入我们的 QQ 频道和群聊,一起探讨 RWKV 模型。

相关链接

[1]

numpy 实现 RWKV-7 推理: https://github.com/BlinkDL/RWKV-LM/blob/main/RWKV-v7/rwkv_v7_numpy.py

[2]

WandB 注册教程: https://wandb.ai/quickstart?product=models

[3]

Qwerky-72B-Preview 模型仓库: https://huggingface.co/featherless-ai/Qwerky-72B-Preview

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RWKV-7 AI模型 自然语言处理 模型训练 开源模型
相关文章