RWKV元始智能 2024年12月12日
RWKV-7-World-0.1B 发布,RWKV-6-32B-Instruct 由海外社区发布
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

RWKV基金会发布了首款RWKV-7架构模型RWKV-7-World-0.1B-v2.8,这是目前全球最强的0.1B多语言模型,在英文和多语言基准评测中表现出色。同时,RWKV海外社区发布了迄今最大规模的RWKV模型QRWKV6-32B-Instruct-Preview-v0.1,该模型训练成本极低,仅需在16张显卡上训练8小时。这些新模型展现了RWKV架构在效率、性能和成本方面的优势。

🚀RWKV基金会发布了首款RWKV-7架构模型:RWKV-7-World-0.1B-v2.8,这是目前全球最强的0.1B多语言模型。该模型在英文和多语言基准评测中表现优异,且多语言能力显著超越所有同尺寸模型。

🔀RWKV-7-World-0.1B-v2.8模型具有优秀的ReCORD评分,表明其能够更好地理解和使用长文本信息。其设计为L12-D768,更少的神经网络层数使得RWKV-7速度更快,更适合边缘设备等资源受限的推理场景。

💻RWKV海外社区发布了迄今最大规模的RWKV模型:QRWKV6-32B-Instruct-Preview-v0.1。该模型通过替换Qwen-32B-Instruct的Transformer注意力头,使其具有RWKV的效率和显存优势。

⏱️QRWKV6-32B-Instruct的训练成本极低,仅在16张AMD MI300X GPU上运行8小时。在多个基准测试中,QRWKV6-32B-Instruct与Qwen2.5-32B-Instruct互有胜负,且在增大数据量后性能还会进一步提升。

🌐将Transformer的QKV Attention迁移到RWKV模型,可以大幅降低大规模推理计算成本,且证明RWKV的架构非常适用于更大参数的模型。

原创 Rocky Luo 2024-12-12 16:33 广东

首款 RWKV-7 模型,和目前最大参数的 RWKV 模型

2024 年 12 月 11 日,RWKV 基金会正式发布了首款 RWKV-7 架构模型:RWKV-7-World-0.1B-v2.8。

同日,RWKV 海外社区团队发布了 QRWKV6-32B-Instruct-Preview-v0.1 模型,这是迄今最大规模的 RWKV 模型,且训练成本极低,仅需在 16 张显卡训练 8 小时。

关于 RWKV-7-World-0.1B 模型

RWKV-7-World-0.1B-v2.8 是 RWKV-7-World 系列的首个模型。由于参数较小,RWKV-7-World-0.1B 从 World v3 数据集(共 3.1T 数据)中随机采样了 1T 训练数据,并为其命名为 World v2.8 训练数据集

RWKV-7-World-0.1B-v2.8 是目前全球最强的 0.1B 多语言模型

在英文和多语言基准评测中,RWKV-7-World-0.1B 的英文能力一流,且多语言能力显著超越所有同尺寸模型。

此外,RWKV-7-World-0.1B 拥有优秀的 ReCORD 评分,这是长文本材料问答任务,表明 RWKV-7 模型能够更好地理解和使用长文本的信息。

0.1B-model-benchmark

在模型设计上,RWKV-7-World-0.1B-v2.8 模型保持 L12-D768,而非 SmolLM2 那种 L30-D576 尺寸。更少的神经网络层数(L12)使得 RWKV-7 的速度更快,更适合边缘设备等资源受限的推理场景,微调训练所需的数据和计算资源也更低。

更大规模的 RWKV-7-World 0.4B、1.5B、3B 也在训练中。

下载与体验

RWKV-7-World-0.1B 现已上传到 Hugging Face 和 ModelScope,可从以下仓库下载:

?Tips

由于 RWKV-7 架构更新了推理逻辑和代码,部分 RWKV 推理工具尚不支持 RWKV-7 模型。

截至 2024.12.12,RWKV pip 包 0.8.28 版本[1]Ai00 0.5.11 版本[2]已支持 RWKV-7 模型的推理。

关于 QRWKV6-32B-Instruct 模型

QRWKV6-32B-Instruct 由 RWKV 海外社区完成训练并发布。

QRWKV6-32B-Instruct 是使用 RWKV6 替换 Qwen-32B-Instruct 的 Transformer 注意力头,再使用少量数据训练,就能使它具有 RWKV 的效率和显存优势,克服原有的 Transformer 架构限制。

QRWKV6-32B-Instruct 的训练在 16 张 AMD MI300X GPU 上运行,总耗时仅需 8 小时。这些 MI300X 算力均由 TensorWave 赞助。

在多个基准测试中,QRWKV6-32B-Instruct 与 Qwen2.5-32B-Instruct 互有胜负。这里的训练只使用了几个 G 数据,在增大数据量后还会进一步显著提升。

QRWKV6-32B-bench

将 Transformer 的 QKV Attention 迁移到 RWKV 模型,可以大幅降低大规模推理计算成本,且证明 RWKV 的架构非常适用于更大参数的模型。

下载和体验

QRWKV6-32B-Instruct 现已上传到 Hugging Face 仓库:recursal/QRWKV6-32B-Instruct-Preview-v0.1[3]

在线体验:https://featherless.ai/models/recursal/QRWKV6-32B-Instruct-Preview-v0.1

相关链接

[1]

RWKV pip 包 0.8.28 版本: https://pypi.org/project/rwkv/

[2]

Ai00 0.5.11 版本: https://github.com/Ai00-X/ai00_server/releases/tag/v0.5.11

[3]

recursal/QRWKV6-32B-Instruct-Preview-v0.1: https://hf-mirror.com/recursal/QRWKV6-32B-Instruct-Preview-v0.1


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RWKV RWKV-7 QRWKV6-32B 多语言模型 Transformer
相关文章