2025-05-15 17:38 湖北
DeepSeek发布了最新技术论文,梁文锋也在其中
深入分析了DeepSeek-V3/R1模型架构及其AI基础设施,重点介绍了多头潜在注意力(MLA)以提高内存效率、混合专家(MoE)架构以优化计算与通信权衡、FP8混合精度训练以充分发挥硬件潜力,以及多平面网络拓扑以最小化集群级网络开销等关键创新。
一、DeepSeek-V3架构设计原则
1.1、内存效率
内存效率的重要性:LLMs对内存资源需求大,内存需求增长速度快于高速内存(如HBM)容量增长速度,优化内存使用是关键策略之一。
低精度模型:使用FP8代替BF16可使模型权重的内存消耗减半,有效缓解AI内存墙问题。
MLA减少KV缓存:LLM推理中,KV缓存用于存储之前请求的上下文,但会引入内存瓶颈。DeepSeek-V3采用Multi-head Latent Attention(MLA),通过投影矩阵将所有注意力头的KV表示压缩为较小的潜在向量,仅需缓存潜在向量,显著减少内存消耗。与LLaMA-3.1 405B和Qwen-2.5 72B相比,DeepSeek-V3的KV缓存大小大幅降低。
其他减少KV缓存的方法:
共享KV(如GQA、MQA):多个注意力头共享一组KV对,压缩KV存储。
窗口KV:对于长序列,仅保留滑动窗口内的KV对,但会牺牲长上下文推理能力。
量化压缩:使用低比特表示存储KV对,减少内存使用,对模型性能影响小。
未来方向:针对Transformer自回归解码的二次复杂度问题,研究线性时间替代方案(如Mamba-2、Lightning Attention)和稀疏注意力方法,以平衡计算成本和模型性能。
1.2、成本效益的MoE模型
减少训练计算需求:MoE架构通过仅激活部分专家参数,使总参数量可大幅扩展,同时保持计算需求适中。DeepSeek-V3参数量达671B,但每token激活参数仅37B,相比密集模型(如Qwen2.5-72B、LLaMa3.1-405B),在训练时计算成本大幅降低,且性能相当甚至更优。
个人使用和本地部署的优势:在个性化LLM代理普及的未来,MoE模型在单请求场景中优势明显。由于每次请求仅激活部分参数,对内存和计算资源需求低,可在配备AI SoC芯片的PC或低成本服务器上高效运行,满足个人使用和本地部署需求。
二、FP8混合精度训练
FP8混合精度训练原理 :FP8是一种低精度的数据格式,它使用8位来表示浮点数,相比FP16和FP32,能够进一步减少内存占用和计算量。在混合精度训练中,模型的权重和激活值可以使用FP8进行计算,而关键的梯度计算和优化步骤则使用更高的精度(如FP32)来保证训练的稳定性。通过这种方式,可以在不损失模型性能的前提下,充分发挥硬件的计算能力,加速训练过程。
效果 :DeepSeek-V3通过采用FP8混合精度训练,在保持模型性能的同时,显著降低了训练成本和内存占用。与传统的FP16训练相比,FP8混合精度训练能够进一步减少内存消耗和计算量,使得大规模模型的训练更加高效和可行。此外,FP8混合精度训练还能够更好地利用硬件的并行计算能力,提高训练速度。
三、多平面网络拓扑
多平面胖树网络的部署:在DeepSeek-V3的训练中,采用了多平面胖树(MPFT)规模扩展网络。每个节点配备8个GPU和8个IB NIC,每对GPU–NIC分配到一个独立的网络平面。此外,每个节点还通过400 Gbps以太网RoCE NIC连接到一个单独的存储网络平面,用于访问分布式文件系统3FS。理论上,该拓扑结构可支持多达16,384个GPU,但实际部署受限于政策和法规,最终部署了2,000多个GPU。
多平面网络的优势:
成本效率:多平面网络能够在保持两层胖树拓扑结构的同时,支持超过10,000个端点,相比三层胖树网络,显著降低了网络成本。其成本/端点甚至略低于成本效率较高的Slim Fly拓扑结构。
流量隔离:每个平面独立运行,一个平面中的拥塞不会影响其他平面,提高了网络整体稳定性,防止了性能连锁下降。
延迟降低:两层拓扑结构相比三层胖树网络实现了更低的延迟,特别适合对延迟敏感的应用,如基于MoE的训练和推理。
健壮性:多端口NIC提供了多个上行链路,单个端口故障不会中断连接,能够快速、透明地恢复故障。
性能分析:
全通信和EP场景:多平面网络的全通信性能与单平面多轨网络相似,这归功于NCCL的PXN机制,该机制优化了多轨拓扑中的流量转发。在16个GPU上进行的全通信测试结果显示,MPFT和MRFT拓扑结构之间的延迟差异可以忽略不计。在实际训练场景中,测试了训练期间常用的EP通信模式。每个GPU在多平面网络中实现了超过40GB/s的高带宽,满足了训练的需求。
DeepSeek-V3模型训练吞吐量:在2048个GPU上训练V3模型时,MPFT的性能与MRFT几乎相同,观察到的差异在正常波动和测量误差范围内。
https://arxiv.org/pdf/2505.09343
推荐阅读 欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。