DeepSeek模型解析

DeepSeek-V2

Multi-head Latent Attention (MLA)

传统的多头注意力机制（MHA，Multi-Head Attention）：

在标准的Transformer中，多头注意力机制（MHA）通过并行计算多个注意力头来捕捉输入序列中的不同特征。每个注意力头都有自己的查询（Query, Q）、键（Key, K）和值（Value, V）矩阵，他们各自的主要作用如下：

查询矩阵 Q：查询矩阵是你想要寻找某个信息的"问题"。在Transformer中，查询矩阵是输入的一个投影，表示当前token对其他token的"需求"。它帮助你确定自己在序列中的位置和需要关注什么内容。

键矩阵 K：键矩阵是每个token提供的"信息"或"标识符"。每个token都有一个与之关联的键，用于与查询进行对比，以确定它与查询的相关性。你可以把键想象成词语的"标签"。

值矩阵 V：值是实际的信息，提供了词向量的内容。根据Q与K的匹配程度，V最终用来生成输出向量。

假定：d是隐向量维度， $n_h$ 是注意力头的数量， $d_h$ 是每个注意力头的维度， $h_t$ 是attention层地t个token的输入隐向量。

W_q,W_k,W_v \in{\mathbb{R}^{d_h*n_h*d}}

q_t,k_t,v_t

q_t,k_t,v_t

n_h

$[q_{𝑡,1};q_{𝑡,2}; ...; q_{𝑡,𝑛_ℎ}]= q_𝑡$

$[k_{𝑡,1};k_{𝑡,2}; ...; k_{𝑡,𝑛_ℎ}]= k_𝑡$

$[v_{𝑡,1};v_{𝑡,2}; ...; v_{𝑡,𝑛_ℎ}]= v_𝑡$

q_t,k_t

v_t

$o_{𝑡,𝑖} =\sum^{t}_{j=1}{︁Softmax_𝑗 (\frac{q^𝑇 _{𝑡,𝑖} k_{𝑗,𝑖}}{\sqrt{d_h}})} v_{j,i}$

最后把所有注意力头结果向量拼接起来，通过一层限行映射回原始维度：

$u_𝑡 = 𝑊^𝑂[o_{𝑡,1}; o_{𝑡,2}; ...; o_{𝑡,𝑛_ℎ}]$

MLA:

MLA的核心是对value和key进行低秩联合压缩来减少推理时的键值缓存（KV cache），MLA设计中所有的K和V都需要缓存，MLA只需要缓存一个压缩的向量，并且此向量纬度远远小于 $d_hn_h$ ，只需要在推理计算时再向上投影生成所有的K和V。具体计算如下：

对value和key进行低秩联合压缩：

𝑊^{𝐷𝐾𝑉} ∈ \mathbb{R}^{𝑑_𝑐×𝑑}

下投影矩阵

c^{𝐾𝑉}_𝑡 = 𝑊^{𝐷𝐾𝑉}h_𝑡

上投影矩阵

𝑊^{UK}, 𝑊^{UV} ∈ \mathbb{R}^{d_hn_h*𝑑_𝑐}

注意可以认为是映射成隐向量维度

，而不是每个注意力头的维度

k^𝐶_t = 𝑊^{UK}c^{𝐾𝑉}_𝑡

v^𝐶_t = 𝑊^{UV}c^{𝐾𝑉}_𝑡

k^R_t = RoPE(W^{KR}h_t)

𝑊^{KR} ∈ \mathbb{R}^{𝑑^R_h*d}

d^R_h

k^R_t

k^C_t

k_t = [k^V_t;k^R_t]

v_t=v^C_t

因此在推理过程中，为了加速推理，需要将K、V缓存。当采用MLA：只有

k^{KV}_t

和

k^R_t

需要缓存，只需要缓存

(d_c + d^R_h) * l

个参数。如果是MLA，所有keys和values向量都需要缓存，则需要缓存

2n_h d_h l

个参数。

同样的，为了降低训练过程中的内存激活量，对Q也进行类似的处理:

q_{t,i}

k_{j,i}

v^C_{j,i}

这里

q_{t,i}

和

k_{j,i}

都拼接了RoPE位置向量，所以纬度是一样的

𝑊^O ∈ \mathbb{R}^{𝑑*d_hn_h}

，

代码实现：

在Deepseek-V3中，K和V的维度都是7168，

这个设计在推理的时候无法直接应用RoPE，MLA巧妙将两个部分分开计算。

参考：
zhuanlan.zhihu.com/p/151537455…zhuanlan.zhihu.com/p/218171829…

DeepSeekMoE-V2

MOE：

MoE的优势是能够在远少于稠密模型所需的计算资源下进行有效预训练。

概要：

MoE是整个网络的一部分，在训练阶段，所有"专家"都参与的，end2end训练，所谓“专家”网络只是在训练过程中处理序列中特定的token，而不是对特定的任务来训练某个“专家”网络。它还有个“负载均衡”的概念，就是让每个专家尽量参与，这样整个模型更高效。用MOE就可以把网络做的很宽，参数量更多。

在推理阶段，每个token只需要选择topk个“专家”，参数量就明显降低了。比如一个“专家”网络参数量是N，采用8个专家，模型总32层，专家层这部分参数量，训练阶段就是 328N，在推理阶段只需要 322N，就少了很多。

至于“专家”层怎么进行并行计算，它是每一层for循环每个“专家”，选出来各自负责处理的token对应的输入隐向量，按照顺序重排构造矩阵（需要padding），再对应与hidden层的weight相乘，最后再将每个token的结果向量reduce相加。

DeepSeek-V3

DeepSeekMoE-V3：

Multi-Token Prediction (MTP) training objective：

核心思路：多token预测，让模型在训练的时候，一次性预测多个未来token，一次性学习多个位置的label。

训练执行步骤：

主模型和草稿模型共享Embedding层和Output Head层（输出预测logit）。

k时刻草稿模型输入特征向量：将k-i时刻主模型Head层前面的特征向量+RMSNorm，将k时刻token经过共享的Embedding层得到词向量+RMSNorm，将两部分concat起来，过一层Linear降维。

草稿模型预测：输入Transformer得到输出特征向量，过共享的Output Head层得到token的预测概率。

训练草稿模型：采用交叉熵，采用典型的Teacher forcing模式训练草稿模型。

预测执行步骤：

草稿模型预测

原始模型校验

接受

参考：

Multi-Head Latent Attention (MLA) 详细介绍

MTP：让LLM一次性预测多个token

DeepSeek-R1

GPPO：

参考：
全网首篇从tensorRT-LLM MoE CUDA kernel角度理解Mixtral-8x7b的推理加速及展望混合专家模型 (MoE) 详解 Mixtral Moe代码解读_moe 代码-CSDN博客一文带你看清Mixtral内部结构及参数计算翟泽鹏图解大模型训练系列之：DeepSpeed-Megatron MoE并行训练（原理篇）用通俗易懂的方式讲解大模型分布式训练并行技术:MOE并行_如何训练moe大模型-CSDN博客 moe使用负载均衡的意义仅仅是为了方便训练吗？混合专家模型 (MoE) 详解

scaling law

DeepSeek-V2

Multi-head Latent Attention (MLA)

DeepSeekMoE-V2

DeepSeek-V3

DeepSeekMoE-V3：

Multi-Token Prediction (MTP) training objective：

DeepSeek-R1

GPPO：

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签