RWKV元始智能 07月08日 14:12
RWKV-8 系列之 DeepEmbedAttention:精简 KV 缓存,尤其适合混合模型(RWKV-7s)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DEA 是一种基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体,拥有极小的 KV 缓存,尤其适合混合模型,可将长上下文性能提升到 Transformer 水平。它通过极简的 KV 缓存设计,显著降低显存占用,同时保持强大的语言建模能力。实验表明,RWKV-7s 添加 DEA 后,处理长上下文时的 loss 差值持续下降,证明其更优的上下文利用能力。DEA 的结构允许并行计算,适合异构计算环境,是提升混合模型长上下文性能的有效方案。

🔹 DEA 是基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体,核心特点是极小的 KV 缓存,仅需 64 个值(32+32维),远低于 MLA 的 576 个值,效率提升 9 倍。

🌿 DEA 通过将 QKV 输出加到 RWKV-7 输出上实现,结构简单,支持并行计算,可在不同设备或异构计算中分别处理 QKV 和 RWKV-7 部分,提升计算效率。

💡 实验结果证明,RWKV-7s(加入 DeepEmbed 和 DEA)在处理长上下文时表现更优,随着前文长度增加,loss 差值持续扩大(从 -0.13 降至 -0.17),表明其更强的长上下文信息利用能力。

🚀 DEA 的设计目标是在极小 KV 缓存下实现强上下文能力,适用于混合模型,如后续的 RWKV-7s 混合模型,使其长上下文性能达到 Transformer 水平。

⚙️ 尽管 DEA 的 KV 缓存会随上下文长度缓慢增长,但 RWKV-8 的长远目标是实现完全无 KV 缓存的强上下文模型,相关方法后续将逐步公布。

原创 Rocky Luo 2025-06-30 17:57 广东

DEA 是一种基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体,拥有极小的 KV 缓存,尤其适合混合模型

5 月 27 日,我们公开了 RWKV-8 首个新特性 DeepEmbed:对端侧友好的稀疏设计,解决 MoE 显存占用。

今天,我们公开与其相关的另一个新特性:DeepEmbedAttention(DEA),这是一种基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体,拥有极小的 KV 缓存,尤其适合混合模型(例如后续的 RWKV-7s 混合模型),可将它们的长上下文性能提升到 Transformer 水准。

DEA 的结构定义例子:

# q: D => 256# k: D => 32, k_up: 32 => 256, k_emb: V => 256# v: D => 32, vup: 32 => D, v_emb: V => Dq = ln_q(q(x))k = ln_k(k_up(k(x)) * k_emb(idx))v = ln_v(tanh(v_up(v(x))) * v_emb(idx))   

然后将 QKV 的输出加到 RWKV-7 的输出上。这适合并行计算,例如可在不同设备(或异构计算)计算 QKV 和 RWKV-7 部分。

这个注意力头的维度是 256,但由于 DEA 的 

key

 和 

value

 只需缓存 32 维,KV 总共只需缓存 64 个值(32+32)。
对于 RWKV-7,只需在每层加上一个 DEA head,就能显著增强长上下文能力。因此,对比现有的高效注意力机制(例如 MLA 使用 576 个值),DEA 的 KV 缓存进一步缩小到 64/576 = 1/9,实现了极致效率。

DEA图中 loss delta 图的横轴是随着前文长度增加时 token 的位置(token_pos),纵轴表示两种架构在不同 token 位置的 loss 差值(token_loss delta)。

实验结果显示:随着前文长度增加,RWKV-7s(加入 DeepEmbed 和 DEA)在越来越长前文的 loss 相较原版 RWKV-7 持续下降,从 -0.13 降至 -0.17。

💡Tips这意味着 RWKV-7s 这类添加了 DEA 的混合模型,在处理长上下文时表现更好。因为 token 越靠后,所依赖的前文也越长,而 loss 差值持续扩大,代表 RWKV-7s 对比 RWKV-7 更有能力利用越来越长的前文所包含的越来越多的信息,语言建模能力越来越强。

最后,尽管 DEA 的 KV 缓存非常小,但它仍会随上下文长度而缓慢增长。RWKV-8 的目标,是在完全无 KV 缓存的情况下也能实现强上下文能力,且我们也有方法,后续逐步公布,欢迎大家关注。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DEA 注意力机制 长上下文 RWKV-8 混合模型
相关文章