RWKV元始智能 2024年10月28日
RWKV-7 预览版已发布,真正超越 attention 范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

RWKV-7,代号“Goose”,是一款突破性的语言模型,它超越了传统的Attention机制,并在相同算力下解决了一些Attention无法解决的问题。RWKV-7 的状态演化更加灵活,拥有更强的 ICL 能力,训练 Loss 更低,并且训练过程更加稳定。相较于之前的 RWKV-6,RWKV-7 在性能和稳定性方面都有显著提升。目前 RWKV-7 处于早期预览版本,而 RWKV-6 仍然是稳定的版本。值得关注的是,基于 RWKV-6 的新项目 RWKV-nonogram 使用 Chain Of Thought 训练了一个 20M 参数的 RWKV 模型,可以解决数织难题。RWKV-7 的出现为语言模型领域带来了新的突破,它在相同算力下展现出更强大的性能,为未来的语言模型发展提供了新的方向。

🤔 RWKV-7 是一种超越 Attention 范式的语言模型,它通过灵活的状态演化,在相同算力消耗下解决了 Attention 无法解决的问题,展现出更强大的性能。

📈 RWKV-7 在训练 Loss 和稳定性方面均优于 RWKV-6,这意味着它可以更有效地学习语言模式,并生成更准确和连贯的文本。

💡 RWKV-7 拥有更强的 ICL 能力,这意味着它可以更好地理解和应用上下文信息,从而生成更符合语境的文本。

🧩 基于 RWKV-6 的新项目 RWKV-nonogram 使用 Chain Of Thought 训练了一个 20M 参数的模型,可以解决数织难题,展示了 RWKV 模型在解决复杂问题方面的潜力。

🚀 RWKV-7 的出现为语言模型领域带来了新的突破,它在相同算力下展现出更强大的性能,为未来的语言模型发展提供了新的方向。

原创 Rocky Luo 2024-09-25 17:40 广东

RWKV-7 可以解决在相同算力消耗下 attention 无法解决的问题

RWKV-7(代号 Goose 雁)预览版 RWKV-7 "Goose" x070.rc2-2409-2r7a-b0b4a 现已推出。

RWKV-7 超越了 attention / linear attention 范式,它的状态演化很灵活,可以解决在相同算力消耗下 attention 无法解决的问题。

    RWKV-7 代码:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v7

    RWKV-7 模型(训练中):https://huggingface.co/BlinkDL/temp-latest-training-models/tree/main

RWKV-7 "Goose" x070.rc2-2409-2r7a-b0b4a 的公式:


其中, 可看作 in-context learning rate。RWKV-7 拥有很强的 ICL 能力。

相对 RWKV-6 Finch ,RWKV-7 Goose 的训练 Loss 更低,且训练非常稳定:

RWKV-7 与 RWKV-6 的 Loss 曲线对比

对比 RWKV5/6

以下是 RWKV -7 对比历史版本(RWKV5/6)的改进:

RWKV-7 的核心机制代码

RWKV-7 的核心机制代码

RWKV-7 处于早期预览版本,当前 RWKV 的稳定版本仍然是 RWKV-6 Finch。

这里推荐一个基于 RWKV-6 的新项目:RWKV-nonogram[1],使用 RWKV-6 + Chain Of Thought 训练了一个 20M 参数 RWKV 模型,这个模型可以做数织(nonogram)任务。

数织是一种逻辑游戏,以猜谜的方式绘画黑白位图。在一个网格中,每一行和列都有一组数,玩家需根据它们来填满或留空格子,最后就可以由此得出一幅图画。

RWKV-nonogram 的 CoT 过程:

rwkv-nonograms

RWKV-nonogram 进行数织(nonogram)任务的可视化过程:

rwkv-nonograms-可视化

欢迎大家基于 RWKV-6 开展新项目或学术研究!

加入 RWKV 社区

RWKV 是一种创新的深度学习网络架构,它将 Transformer 与 RNN 各自的优点相结合,同时实现高度并行化训练与高效推理。

欢迎大家加入 RWKV 社区!可以从 RWKV 中文官网了解 RWKV 模型,也可以加入我们的 QQ 频道和群聊,一起探讨 RWKV 模型。


相关链接

[1]

RWKV-nonogram: https://github.com/LeC-Z/RWKV-nonogram

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RWKV-7 语言模型 深度学习 Attention ICL
相关文章