Ariel Wang 2025-03-20 17:52 广东
RWKV-7 在 NVIDIA GTC 2025 海报展示区
RWKV-7 亮相 NVIDIA GTC
太平洋时间 2025 年 3 月 17 日- 21 日,全球人工智能大会 “NVIDIA GTC 2025” 在美国加州圣何塞正式举行。RWKV 团队在 NVIDIA GTC 的 Poster Reception 展示并讲解了 RWKV-7 架构的最新进展。RWKV 社区突出贡献者、RWKV-7 架构论文作者之一侯皓文博士在现场为来自全球各地的开发者及参会人员进行讲解技术细节,并耐心解答疑问,与全球的 AI 开发者与创新者分享、推广 RWKV-7 架构的技术创新亮点与各大领域的应用场景。
NVIDIA GTC 官网链接:
https://www.nvidia.com/gtc/posters/?search=RWKV#/session/1726298852865001JvyL
RWKV-7 在 NVIDIA GTC
RWKV-7 架构论文作者之一:侯皓文
RWKV 展示区现场学术氛围浓厚,讨论热烈,吸引了诸多技术人员与开发者在展位驻足交流,许多开发者与参会人员表达了对 RWKV-7 架构进展的浓厚兴趣与积极看法,更有不少人直接现场加入了 RWKV 全球开发者社区。
RWKV 团队成员为参会者讲解
RWKV-7 架构与未来趋势
RWKV-7 是面向未来的高效 AI 大模型架构,超越 attention / linear attention 范式,速度与显存恒定,并拥有深刻上下文学习能力,可真正持续学习,在保持 100% RNN 的同时,拥有极强的长文本能力。
RWKV-7 架构论文《RWKV-7 "Goose" with Expressive Dynamic State Evolution》已于 3 月 18 日正式发布(https://arxiv.org/abs/2503.14456)。
RWKV-7 的核心机制是引入并优化广义 Delta Rule 作为 RWKV-7 隐藏状态的演化机制(State Evolution),超越了传统的 attention / linear attention 范式,拥有强大的上下文学习(in-context learning)能力和持续学习能力。
RWKV-7 模型在推理过程中能够不断自动根据新的数据进行自我优化和改进(test-time training),从而显著提升了模型的理解力和处理能力。通过一系列创新(例如广义 Delta Rule),RWKV-7 在计算效率、任务表现和模型表达力全面超越了 Transformer 和过去的 RWKV-6 架构。例如 RWKV-7 2.9B 模型的英文和多语言能力(英文评测 71.1%,多语言评测 62.3%),均显著超越所有同尺寸模型,在训练数据远低于 Qwen2.5、Llama3.2 等开源模型的前提下,RWKV-7-World 模型的语言建模能力在所有开源 3B 规模模型中达到 SoTA 水平。
RWKV-6 and RWKV-7: Next-Gen Model Architecture
此次在 NVIDIA GTC 2025 的亮相,RWKV 向全球展示了其在大模型领域的技术积累与创新实力。未来,RWKV 也将秉持全球开源开放的理念,与全球 AI 行业从业者、研究者、开发者与爱好者携手迎接智能革命,不断探索 AI 技术的前沿方向,与全球生态伙伴共同塑造智能时代的未来。
加入 RWKV 社区
欢迎大家加入 RWKV 社区,可以从 RWKV 中文官网了解 RWKV 模型,也可以加入 RWKV 论坛、QQ 频道和 QQ 群聊,一起探讨 RWKV 模型。
📖 RWKV 中文文档:https://www.rwkv.cn
💬 RWKV 论坛:https://community.rwkv.cn/
🐧 QQ 频道:https://pd.qq.com/s/9n21eravc | QQ 交流群:224287095
📺 BiliBili 视频教程:https://space.bilibili.com/3546689096910933
关注我们: