RWKV-8 系列之 DeepEmbedAttention：精简 KV 缓存，尤其适合混合模型（RWKV-7s）

RWKV元始智能 07月08日 14:12

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

DEA 是一种基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体，拥有极小的 KV 缓存，尤其适合混合模型，可将长上下文性能提升到 Transformer 水平。它通过极简的 KV 缓存设计，显著降低显存占用，同时保持强大的语言建模能力。实验表明，RWKV-7s 添加 DEA 后，处理长上下文时的 loss 差值持续下降，证明其更优的上下文利用能力。DEA 的结构允许并行计算，适合异构计算环境，是提升混合模型长上下文性能的有效方案。

🔹 DEA 是基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体，核心特点是极小的 KV 缓存，仅需 64 个值（32+32维），远低于 MLA 的 576 个值，效率提升 9 倍。

🌿 DEA 通过将 QKV 输出加到 RWKV-7 输出上实现，结构简单，支持并行计算，可在不同设备或异构计算中分别处理 QKV 和 RWKV-7 部分，提升计算效率。

💡 实验结果证明，RWKV-7s（加入 DeepEmbed 和 DEA）在处理长上下文时表现更优，随着前文长度增加，loss 差值持续扩大（从 -0.13 降至 -0.17），表明其更强的长上下文信息利用能力。

🚀 DEA 的设计目标是在极小 KV 缓存下实现强上下文能力，适用于混合模型，如后续的 RWKV-7s 混合模型，使其长上下文性能达到 Transformer 水平。

⚙️ 尽管 DEA 的 KV 缓存会随上下文长度缓慢增长，但 RWKV-8 的长远目标是实现完全无 KV 缓存的强上下文模型，相关方法后续将逐步公布。

原创 Rocky Luo 2025-06-30 17:57 广东

DEA 是一种基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体，拥有极小的 KV 缓存，尤其适合混合模型

5 月 27 日，我们公开了 RWKV-8 首个新特性 DeepEmbed：对端侧友好的稀疏设计，解决 MoE 显存占用。

今天，我们公开与其相关的另一个新特性：DeepEmbedAttention（DEA），这是一种基于 RWKV-8 的 DeepEmbed 思路构建的注意力变体，拥有极小的 KV 缓存，尤其适合混合模型（例如后续的 RWKV-7s 混合模型），可将它们的长上下文性能提升到 Transformer 水准。

DEA 的结构定义例子：

# q: D => 256# k: D => 32, k_up: 32 => 256, k_emb: V => 256# v: D => 32, vup: 32 => D, v_emb: V => Dq = ln_q(q(x))k = ln_k(k_up(k(x)) * k_emb(idx))v = ln_v(tanh(v_up(v(x))) * v_emb(idx))

然后将 QKV 的输出加到 RWKV-7 的输出上。这适合并行计算，例如可在不同设备（或异构计算）计算 QKV 和 RWKV-7 部分。

这个注意力头的维度是 256，但由于 DEA 的

key

和

value

只需缓存 32 维，KV 总共只需缓存 64 个值（32+32）。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签