DeepSeekFP8启示：FP4计算让DS成本再降一倍

原创算力百科 2025-02-10 05:51 上海

Deepseek最大的成就是验证了FP8混训得成功，让AI产业界不再固守FP16，大大降低对算力的需求，这是前无古人后无来者的成功，就像第一个敢吃螃蟹的人一样，虽然现在看很容易，但是有勇气第一个探索并且取得的成功，那就是英雄。

结论现行：FP4混训也是Deepseek的下一个杀手锏

Deepseek最大的成就是验证了FP8混训的成功，让AI产业界不再固守FP16，大大降低对算力的需求，这是前无古人后无来者的成功，就像第一个敢吃螃蟹的人一样，虽然现在看很容易，但是有勇气第一个探索并且取得的成功，那就是英雄。

DS架构最够优优秀，全球AI芯片统一适配，让MaaS服务真正落地实现。未来不同芯片厂商适配DS架构，大模型应用厂商不再需要关注底层模型和硬件差异化，大模型应用应用厂商可以同时接几家DS openAPI，谁便宜调用谁的。类似CDN业务同时接入几家CDN服务API，谁便宜，就用谁。

当DS屏蔽AI芯片差异化，直接调用芯片驱动，因为架构单一，所以芯片厂商适配支持起来也容易，目标很明确，就是DS架构。意味着彻底解决了芯片厂商绑架应用的情况，当项目需要扩容的时候，可以任一选择一家芯片品牌，只要性价比合适，真正实现“一云多芯，多芯混训”的技术架构，真正实现价值定价，推动算力普惠，加速算力“CDN化”！

DS继续降低成本，4位混训是关键

Moe 架构固定，需要持续压缩一半的成本，必然需要把fp8训推，进一步压缩到4位，4位计算选择哪个是关键，也是下一代国产AI芯片的核心竞争点。

目前主流的四位计算精度主要有三种：

NF4、FP4 和 INT4 是三种不同的低精度量化技术，均用于减少大模型的存储和计算开销，但它们在数据表示方式、适用场景及性能表现上存在显著差异。以下是它们的核心区别及特点总结：

1. 数据表示与量化原理

INT4（4位整数量化）：将浮点数转换为4位整数，采用”线性对称或非对称量化”。通过缩放因子将浮点范围映射到整数范围（如-8到7），计算效率高但动态范围有限，对异常值敏感，易导致精度损失。适用于对资源要求苛刻但对精度容忍度较高的场景。

FP4（4位浮点量化）：使用4位浮点格式表示数据，包含”1位符号位、2位指数位和1位尾数位”。相比INT4，FP4具有更大的动态范围和更接近浮点的精度，适合需要保留数值范围的应用（如梯度量化）。但由于非标准格式，硬件支持有限。

NF4（4位归一化浮点量化）：基于分位数量化技术，将数据归一化到正态分布区间，并为每个量化区间分配相等的概率密度，从而实现信息理论上的最优量化。特别适用于”正态分布的权重数据”（如大语言模型），精度损失较小，但需额外存储缩放参数。

2. 性能与适用场景对比

3. 技术特点与优劣势

NT4：优势：存储压缩率高（权重缩减至1/8），计算速度快，适合资源受限的推理场景。劣势：精度损失显著，需校准数据集调整量化参数，对离群值处理能力弱。

FP4：优势：动态范围接近FP16，适合需要保留数值范围的场景（如某些激活函数）。劣势：非标准格式导致兼容性差，计算复杂度高于整数量化。

NF4：优势：针对正态分布数据优化，量化误差最小，适合大模型权重的高效压缩（如千亿参数模型）。劣势：需存储分位数缩放参数，可能增加内存开销；实现复杂度较高。

4. 目前主要应用

NT4：常用于移动端或嵌入式设备的模型推理，如实时图像分类。若追求极致压缩与速度，且能接受一定精度损失，选择”INT4”；。

FP4：在部分研究中使用于激活值量化，以减少内存占用。若需平衡动态范围和精度，考虑”FP4”；

NF4：QLoRA框架中用于65B参数模型的4位微调，结合双重量化技术将内存需求从780GB降至48GB，保持接近16位精度的性能。针对大模型权重量化或微调场景，优先使用”NF4”以最小化精度损失。

目前，英伟达Ada、hopper、Blackwell架构走的是Fp4。

Nvidia Blackwell 架构对上一代 Hopper 架构的 Transformer Engine 进行了迭代升级，第二代 Transformer 引擎搭配上第五代 Tensor Core 技术，并结合 NVIDIA® TensorRT™ - LLM 和 NeMo™框架创新成果，加速了大型语言模型和专家混合模型（MoE）的推理与训练。Blackwell B200 在 FP8 精度下的算力达到了 20 PFLOPS，是上一代 Hopper H100 的 2.5 倍，在全新的 FP4 精度下，40 PFLOPS 的算力更是 Hopper 的 5 倍！

欢迎加入DS前瞻圈，一起领略Deepseek引领AI文艺复兴！！

DeepSeek让多地智算中心停建

DeepSeek让智算中心分A/B/C型重建

DeepSeek让多地数字要素基地停建

震惊！OpenAI O3-mini史诗级抄袭DeepSeek R1！硅谷巨头竟靠"中文思维"掩饰剽窃

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签