原创 算力百科 2025-02-10 05:51 上海
Deepseek最大的成就是验证了FP8混训得成功,让AI产业界不再固守FP16,大大降低对算力的需求,这是前无古人后无来者的成功,就像第一个敢吃螃蟹的人一样,虽然现在看很容易,但是有勇气第一个探索并且取得的成功,那就是英雄。
结论现行:FP4混训也是Deepseek的下一个杀手锏
Deepseek最大的成就是验证了FP8混训的成功,让AI产业界不再固守FP16,大大降低对算力的需求,这是前无古人后无来者的成功,就像第一个敢吃螃蟹的人一样,虽然现在看很容易,但是有勇气第一个探索并且取得的成功,那就是英雄。
DS架构最够优优秀,全球AI芯片统一适配,让MaaS服务真正落地实现。未来不同芯片厂商适配DS架构,大模型应用厂商不再需要关注底层模型和硬件差异化,大模型应用应用厂商可以同时接几家DS openAPI,谁便宜调用谁的。 类似CDN业务同时接入几家CDN服务API,谁便宜,就用谁。
当DS屏蔽AI芯片差异化,直接调用芯片驱动,因为架构单一,所以芯片厂商适配支持起来也容易,目标很明确,就是DS架构。意味着彻底解决了芯片厂商绑架应用的情况,当项目需要扩容的时候,可以任一选择一家芯片品牌,只要性价比合适,真正实现“一云多芯,多芯混训”的技术架构,真正实现价值定价,推动算力普惠,加速算力“CDN化”!
DS继续降低成本,4位混训是关键
Moe 架构固定,需要持续压缩一半的成本,必然需要把fp8训推,进一步压缩到4位,4位计算选择哪个是关键,也是下一代国产AI芯片的核心竞争点。
目前主流的四位计算精度主要有三种:
NF4、FP4 和 INT4 是三种不同的低精度量化技术,均用于减少大模型的存储和计算开销,但它们在数据表示方式、适用场景及性能表现上存在显著差异。以下是它们的核心区别及特点总结:
1. 数据表示与量化原理
INT4(4位整数量化):将浮点数转换为4位整数,采用”线性对称或非对称量化”。通过缩放因子将浮点范围映射到整数范围(如-8到7),计算效率高但动态范围有限,对异常值敏感,易导致精度损失。适用于对资源要求苛刻但对精度容忍度较高的场景。
FP4(4位浮点量化):使用4位浮点格式表示数据,包含”1位符号位、2位指数位和1位尾数位”。相比INT4,FP4具有更大的动态范围和更接近浮点的精度,适合需要保留数值范围的应用(如梯度量化)。但由于非标准格式,硬件支持有限。
NF4(4位归一化浮点量化):基于分位数量化技术,将数据归一化到正态分布区间,并为每个量化区间分配相等的概率密度,从而实现信息理论上的最优量化。特别适用于”正态分布的权重数据”(如大语言模型),精度损失较小,但需额外存储缩放参数。
2. 性能与适用场景对比
3. 技术特点与优劣势
NT4:优势:存储压缩率高(权重缩减至1/8),计算速度快,适合资源受限的推理场景。 劣势:精度损失显著,需校准数据集调整量化参数,对离群值处理能力弱。
FP4:优势:动态范围接近FP16,适合需要保留数值范围的场景(如某些激活函数)。 劣势:非标准格式导致兼容性差,计算复杂度高于整数量化。
NF4:优势:针对正态分布数据优化,量化误差最小,适合大模型权重的高效压缩(如千亿参数模型)。 劣势:需存储分位数缩放参数,可能增加内存开销;实现复杂度较高。
4. 目前主要应用
NT4:常用于移动端或嵌入式设备的模型推理,如实时图像分类。若追求极致压缩与速度,且能接受一定精度损失,选择”INT4”;。
FP4:在部分研究中使用于激活值量化,以减少内存占用。 若需平衡动态范围和精度,考虑”FP4”;
NF4:QLoRA框架中用于65B参数模型的4位微调,结合双重量化技术将内存需求从780GB降至48GB,保持接近16位精度的性能。针对大模型权重量化或微调场景,优先使用”NF4”以最小化精度损失。
目前,英伟达Ada、hopper、Blackwell架构走的是Fp4。
Nvidia Blackwell 架构对上一代 Hopper 架构的 Transformer Engine 进行了迭代升级,第二代 Transformer 引擎搭配上第五代 Tensor Core 技术,并结合 NVIDIA® TensorRT™ - LLM 和 NeMo™框架创新成果,加速了大型语言模型和专家混合模型(MoE)的推理与训练。Blackwell B200 在 FP8 精度下的算力达到了 20 PFLOPS,是上一代 Hopper H100 的 2.5 倍,在全新的 FP4 精度下,40 PFLOPS 的算力更是 Hopper 的 5 倍!
欢迎加入DS前瞻圈,一起领略Deepseek引领AI文艺复兴!!
震惊!OpenAI O3-mini史诗级抄袭DeepSeek R1!硅谷巨头竟靠"中文思维"掩饰剽窃