RWKV-7 1.5B 基底模型发布，我们必将能在手机高效跑1T参数模型

原创 Rocky Luo 2025-01-28 20:13 广东

新年快乐！

除夕快乐！在除旧迎新之际，我们也正式发布 RWKV-7-World-1.5B-v3 基底模型！（下文简称为 RWKV-7-1.5B 模型）

RWKV-7-1.5B 模型基于 RWKV World v3 数据集（共 3.1T 数据）训练而来。在英文和多语言评测中，RWKV-7-1.5B 模型的评分对比其他同参数模型处于绝对领先地位。

RWKV-7-1.5B 模型的英文和多语言能力显著超越所有同尺寸模型，包括历史版本 RWKV-6，以及 Qwen2.5、SmolLM 等其他开源模型。

在选择题形式的 MMLU 测试上，RWKV-7-1.5B 模型得分为 44.84%。作为对比，上一版本的 RWKV-6-1.5B-V2.1 模型 MMLU 评分是 26.34%。

?Tips
RWKV-7-1.5B 基底模型的性能提升完全通过常规训练实现，未针对任何评测进行“优化”，也没有采取退火或 post-training 等优化策略。

RWKV-7-World-1.5B 现已上传到 Hugging Face，可以从以下仓库下载：

可在 Hugging Face Demo 在线体验 RWKV-7-1.5B 模型：

以下是 RWKV-7-World-1.5B 的生成案例（使用 Hugging Face Demo 运行）：

RWKV-7-1.5B 模型的强大能力，得益于 RWKV-7 架构的精妙改进。在应用了“动态 State 演化机制”后，RWKV-7 拥有强大的 in-context-learning（上下文学习）能力，在推理过程中更好地学习上下文的关系，生成的内容生更精简、更合理。

?Tips
RWKV-7 的架构思路和细节请查看此文章：RWKV-7：极先进的大模型架构，长文本能力极强

RWKV-7-World-2.9B 预计将于二月初发布。请关注我们的公众号“RWKV元始智能”，第一时间获取 RWKV 动态！

最后转载彭博评论：通过 RWKV（无需kv cache）+ Memory/MoE 层 + 存内计算，我们必将能在手机高效跑 1T 参数模型！

加入 RWKV 社区

RWKV 是一种创新的深度学习网络架构，它结合了 Transformer 与 RNN 的优点，同时实现高度并行化训练与高效推理。

RWKV 中文官网（包括大量RWKV多模态论文）：https://rwkv.cn/

RWKV 英文官网：https://rwkv.com/

RWKV-5/6（Eagle & Finch）论文：https://arxiv.org/abs/2404.05892

欢迎大家加入 RWKV 社区！您可从 RWKV 官网了解 RWKV 模型，也可加入我们的官方论坛、QQ 频道和群聊，一起探讨 RWKV 模型。

RWKV 论坛：https://community.rwkv.cn/

QQ 交流群：224287095