算力百科 02月15日
DeepSeekFP8启示:FP4计算让DS成本再降一倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek验证FP8混训成功,降低算力需求。其DS架构使全球AI芯片统一适配,还探讨了4位混训及多种低精度量化技术。此外,提到Blackwell架构的升级及一些争议事件。

🎯DeepSeek验证FP8混训成功,降低算力需求

💻DS架构使全球AI芯片统一适配,推动算力普惠

🔍探讨NF4、FP4和INT4等4位混训的技术特点

🚀Blackwell架构升级,算力大幅提升

原创 算力百科 2025-02-10 05:51 上海

Deepseek最大的成就是验证了FP8混训得成功,让AI产业界不再固守FP16,大大降低对算力的需求,这是前无古人后无来者的成功,就像第一个敢吃螃蟹的人一样,虽然现在看很容易,但是有勇气第一个探索并且取得的成功,那就是英雄。

结论现行:FP4混训也是Deepseek的下一个杀手锏


    Deepseek最大的成就是验证了FP8混训的成功,让AI产业界不再固守FP16,大大降低对算力的需求,这是前无古人后无来者的成功,就像第一个敢吃螃蟹的人一样,虽然现在看很容易,但是有勇气第一个探索并且取得的成功,那就是英雄。

    DS架构最够优优秀,全球AI芯片统一适配,让MaaS服务真正落地实现。未来不同芯片厂商适配DS架构,大模型应用厂商不再需要关注底层模型和硬件差异化,大模型应用应用厂商可以同时接几家DS openAPI,谁便宜调用谁的。 类似CDN业务同时接入几家CDN服务API,谁便宜,就用谁。

       当DS屏蔽AI芯片差异化,直接调用芯片驱动,因为架构单一,所以芯片厂商适配支持起来也容易,目标很明确,就是DS架构。意味着彻底解决了芯片厂商绑架应用的情况,当项目需要扩容的时候,可以任一选择一家芯片品牌,只要性价比合适,真正实现“一云多芯,多芯混训”的技术架构,真正实现价值定价,推动算力普惠,加速算力“CDN化”!


DS继续降低成本,4位混训是关键


    Moe 架构固定,需要持续压缩一半的成本,必然需要把fp8训推,进一步压缩到4位,4位计算选择哪个是关键,也是下一代国产AI芯片的核心竞争点。

    目前主流的四位计算精度主要有三种:

    NF4FP4  INT4 是三种不同的低精度量化技术,均用于减少大模型的存储和计算开销,但它们在数据表示方式、适用场景及性能表现上存在显著差异。以下是它们的核心区别及特点总结:

1. 数据表示与量化原理

INT44位整数量化):将浮点数转换为4位整数,采用线性对称或非对称量化。通过缩放因子将浮点范围映射到整数范围(如-87),计算效率高但动态范围有限,对异常值敏感,易导致精度损失。适用于对资源要求苛刻但对精度容忍度较高的场景。

FP44位浮点量化):使用4位浮点格式表示数据,包含”1位符号位、2位指数位和1位尾数位。相比INT4FP4具有更大的动态范围和更接近浮点的精度,适合需要保留数值范围的应用(如梯度量化)。但由于非标准格式,硬件支持有限。

NF44位归一化浮点量化):基于分位数量化技术,将数据归一化到正态分布区间,并为每个量化区间分配相等的概率密度,从而实现信息理论上的最优量化。特别适用于正态分布的权重数据(如大语言模型),精度损失较小,但需额外存储缩放参数。

2. 性能与适用场景对比

3. 技术特点与优劣势

NT4:优势:存储压缩率高(权重缩减至1/8),计算速度快,适合资源受限的推理场景。  劣势:精度损失显著,需校准数据集调整量化参数,对离群值处理能力弱。

FP4:优势:动态范围接近FP16,适合需要保留数值范围的场景(如某些激活函数)。  劣势:非标准格式导致兼容性差,计算复杂度高于整数量化。

NF4:优势:针对正态分布数据优化,量化误差最小,适合大模型权重的高效压缩(如千亿参数模型)。  劣势:需存储分位数缩放参数,可能增加内存开销;实现复杂度较高。

4. 目前主要应用

NT4:常用于移动端或嵌入式设备的模型推理,如实时图像分类。若追求极致压缩与速度,且能接受一定精度损失,选择”INT4”;。  

FP4:在部分研究中使用于激活值量化,以减少内存占用。 若需平衡动态范围和精度,考虑”FP4”; 

NF4QLoRA框架中用于65B参数模型的4位微调,结合双重量化技术将内存需求从780GB降至48GB,保持接近16位精度的性能。针对大模型权重量化或微调场景,优先使用”NF4”以最小化精度损失。

目前,英伟达Ada、hopper、Blackwell架构走的是Fp4。

    Nvidia Blackwell 架构对上一代 Hopper 架构的 Transformer Engine 进行了迭代升级,第二代 Transformer 引擎搭配上第五代 Tensor Core 技术,并结合 NVIDIA® TensorRT™ - LLM 和 NeMo™框架创新成果,加速了大型语言模型和专家混合模型(MoE)的推理与训练。Blackwell B200 在 FP8 精度下的算力达到了 20 PFLOPS,是上一代 Hopper H100 的 2.5 倍,在全新的 FP4 精度下,40 PFLOPS 的算力更是 Hopper 的 5 倍


欢迎加入DS前瞻圈,一起领略Deepseek引领AI文艺复兴!!


DeepSeek让多地智算中心停建

DeepSeek让智算中心分A/B/C型重建

DeepSeek让多地数字要素基地停建

震惊!OpenAI O3-mini史诗级抄袭DeepSeek R1!硅谷巨头竟靠"中文思维"掩饰剽窃

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek AI变革 低精度量化 Blackwell架构
相关文章