原创 算力百科 J 2025-05-17 06:00 贵州
结论:25年发布的大模型把FP8作为默认支持格式,不支持FP8的智算中心算力租赁价格正在快速下跌或空置。 新建智算中心一定要支持FP8,防止因技术迭代,加速AI设备贬值;
结论:25年发布的大模型把FP8作为默认支持格式,不支持FP8的智算中心算力租赁价格正在快速下跌或空置。今年发布的大模型都会默认使用FP8精度
新建智算中心一定要支持FP8,防止因技术迭代,加速AI设备贬值;
建议甲方客户,没有采购Ai设备的算力中心,建议暂停采购或者重新选择支持FP8的型号,或者等到25年底,采购新发布的AI芯片型号;防止因为技术迭代,而加速AI设备贬值。
deepseek引领FP8的崛起
现代人工智能,尤其是大型语言模型(LLMs)和其他复杂模型的不断发展,对计算提出了前所未有的需求,这使得更加高效的计算范式成为必要。动辄数十亿甚至数万亿参数的现代人工智能模型,对数据中心的计算、内存和能源资源提出了巨大的挑战。这种压力是推动探索低精度格式的主要动力。模型规模的增长直接转化为需要存储更多参数、在训练和推理过程中进行更多计算,以及因此需要更大的基础设施。这造成了传统精度格式(如 FP32 和 FP16)难以有效解决的瓶颈。
“智算中心”的概念应运而生,指的是针对人工智能工作负载进行优化的专用数据中心,超越了一般用途的计算 。智算中心不仅仅关注原始计算能力,更重要的是协调从数据摄取到模型部署和推理的整个人工智能生命周期,重点在于效率和可扩展性。传统数据中心处理各种工作负载,而以人工智能为中心的中心则采用专门的硬件(GPU、TPU)、高带宽网络和针对人工智能任务优化的软件进行设计,这使得它们成为独特的实体。
FP8(8 位浮点)作为评估和设计这些中心的一种潜在的下一代度量标准被引入,其重点在于其效率优势。FP8 的出现标志着评估人工智能基础设施的方式发生了转变,不再仅仅通过原始的 FLOPS,而是通过它处理人工智能工作负载的效率来衡量,同时考虑了在给定精度下的内存使用、能耗和吞吐量等因素。重点正在从峰值理论性能(通常以更高的精度)转向实际人工智能任务的实际性能,在这些任务中,较低的精度可以提供显着的优势。对于许多现代人工智能工作负载,FP8 代表了精度和效率之间的最佳平衡点。
智算中心计算精度的演变
智算中心主要做人工智能任务。人工智能中使用的浮点数据类型经历了漫长的发展历程。FP32(32 位单精度浮点)由于其高精度,一直是训练的传统标准 。虽然 FP32 提供了高精度,但其内存和计算开销对于训练和部署大规模人工智能模型来说可能非常高昂。早期人工智能研究对高精度的需求导致了 FP32 的主导地位。然而,随着模型规模的增长,相关的成本成为一个主要问题。
FP16(16 位半精度浮点)是早期提高效率的尝试,但在数值范围和精度方面有所权衡 。FP16 提供了显着的加速和内存节省,但通常需要仔细管理(例如,损失缩放)以避免在训练过程中出现下溢问题,尤其是在较大的模型中。FP16 展示了低精度的潜力,但也突出了保持精度和稳定性的挑战。
BF16(BrainFloat16)是一种更新的标准,尤其适用于 LLM 训练,它提供了比 FP16 更宽的动态范围 。BF16 的优势在于其类似于 FP32 的指数范围,这有助于防止在训练非常大的模型时出现下溢,使其在许多情况下比 FP16 更稳定。谷歌引入 BF16 解决了与快速增长的 LLM 中 FP16 相关的一些稳定性问题,从而导致了它的广泛采用。
超低精度格式(如 FP8 和 FP4)的出现是效率演变的下一步,其驱动力是人工智能模型日益增长的规模和复杂性 。对更大、更强大的人工智能模型的无情追求,需要比 FP16 和 BF16 所能提供的更大的效率提升,从而将界限推向更低的精度格式。随着对人工智能计算的需求持续激增,并且由于传统扩展方法(摩尔定律)的限制,降低数值精度成为提高性能和降低成本的关键手段。
deepseek的大获成功并开源,带火了fp8精度计算;
FP8 在人工智能训练中的优势
FP8 为训练大型人工智能模型带来了诸多优势。
首先,FP8 每个浮点数仅使用 8 位,远小于 FP16(16 位)和 FP32(32 位),从而显着节省了内存 。更小的内存占用允许使用相同的硬件训练更大的模型,或者使用更少的硬件训练相同的模型,从而降低成本并提高可访问性。内存墙是人工智能训练中的一个重要瓶颈,减少存储模型参数、激活和梯度所需的内存可以直接解决这个问题。
其次,较低的位宽转化为更快的算术运算,尤其是在具有专用 FP8 硬件的现代人工智能加速器上 。计算吞吐量的提高缩短了训练时间,考虑到训练最先进的人工智能模型需要巨大的时间和资源,这是一个关键因素。像 NVIDIA 的 Tensor Cores 这样的专用硬件旨在以比更高精度运算快得多的速度执行低精度矩阵乘法和卷积。
第三,内存和带宽的节省使得在分布式训练环境中跨多个 GPU 和节点更好地扩展训练成为可能 。高效的分布式训练对于处理最大的人工智能模型至关重要。FP8 降低的通信开销和内存需求有助于更好地并行化。在分布式训练中,需要在不同处理单元之间交换的数据量可能成为瓶颈。较低的精度格式会减少这些数据传输的大小。
NVIDIA 的 Transformer Engine 在支持 Hopper、Ada 和 Blackwell GPU 上的 FP8 训练方面发挥着重要作用 。NVIDIA 的 Transformer Engine 提供了一个专门的库,简化了 Transformer 模型 FP8 训练的实现,抽象了混合精度训练的一些复杂性。软件支持对于新硬件功能的广泛采用至关重要。Transformer Engine 使开发人员更容易在其训练管道中利用 FP8 功能。
除了 NVIDIA 之外,其他行业也在积极探索 FP8 训练,包括 Graphcore 和 AMD 的工作 。对 FP8 的兴趣不仅限于 NVIDIA,人工智能硬件领域的其他主要参与者也认识到其潜力,并为其开发和标准化做出贡献。广泛的行业共识和标准化努力对于确保互操作性并促进 FP8 的广泛采用至关重要。
值得注意的是,虽然 FP8 提供了显着的性能优势,但训练稳定性可能是一个问题。混合精度训练(对敏感操作使用更高的精度)和动态缩放等技术对于减轻潜在的精度损失至关重要 。FP8 较低的数值范围可能导致训练过程中出现下溢或溢出问题。仔细管理模型不同部分的精度和梯度缩放对于保持训练稳定性和收敛性至关重要。
FP4:高性价比的推理算力
FP8训练,FP4(4 位浮点)推理是未来的标配!推理成本永远是客户优先的考虑因素!
首先,FP4 使用的位数比 FP8 更少,从而有可能实现更大的内存节省和更快的推理速度。对于推理而言,模型的权重是固定的,因此像 FP4 这样的更低精度格式是可行的,从而显着提高效率,尤其是在资源受限的设备上部署或在数据中心服务大量请求时。模型一旦训练完成,重点就会转向高效地部署它以进行预测。推理通常具有与训练不同的精度要求,从而允许更积极的量化。
其次,FP4 降低的计算负载可以带来更高的推理吞吐量和更低的延迟,这对于实时人工智能应用至关重要。在诸如对话式人工智能或自动驾驶之类的应用中,人工智能模型的速度和响应能力至关重要。FP4 可以帮助实现必要的性能。更快地处理单个推理请求以及处理更多并发请求的能力是人工智能推理系统的关键性能指标。
NVIDIA 的 Blackwell 架构及其原生 FP4 功能,包括第二代具有 FP4 加速功能的 Transformer Engine,突显了 FP4 在推理方面的重要性。NVIDIA 最新的架构表明了对 FP4 推理的坚定承诺,这表明它有潜力成为未来人工智能部署的关键技术。硬件支持是衡量一项技术未来发展轨迹的重要指标。NVIDIA 将 FP4 集成到其旗舰 Blackwell GPU 中,标志着其重要性。
TensorRT 生态系统及其针对 Blackwell 上 FP4 推理的优化,包括 TensorRT-LLM 和 TensorRT Model Optimizer,为开发人员提供了全面的软件堆栈,使其能够有效地利用 FP4 进行推理,包括模型优化工具和高性能运行时环境。简化 FP4 模型部署和优化的软件工具对于其在实践中的应用至关重要。
诸如 DeepSeek-R1 和 Llama 3 等模型的 FP4 推理性能的实际示例表明了 FP4 的有效性。在流行的 LLM 上的基准测试表明,使用 FP4 推理可以实现显着的性能提升,而精度损失极小,这验证了其在实践中的效用。关于相关模型的具体性能数据提供了 FP4 在实际场景中有效性的证据。
与 FP8 训练类似,使用 FP4 推理实现良好的精度通常需要使用后训练量化 (PTQ) 或量化感知训练 (QAT) 等技术,以最大限度地减少精度降低的影响。量化技术有助于将训练好的模型的高精度权重和激活映射到低精度的 FP4 格式,同时尽可能地保持精度。
FP8的国际标准化
人工智能硬件生态系统中的其他主要参与者也对 FP8 和 FP4 发表了自己的看法并做出了贡献。英特尔在其 Gaudi HPU 中支持 FP8 。英特尔在其人工智能加速器中采用 FP8 进一步验证了其作为人工智能计算新兴标准的地位。来自多个主要供应商的竞争和支持是衡量一项技术广泛应用潜力的重要指标。
AMD 与 Graphcore 和 Qualcomm 共同提议制定 FP8 人工智能标准。AMD、Graphcore 和 Qualcomm 共同努力提出开放的 FP8 标准,突显了行业对互操作性和低精度人工智能计算统一方法的渴望。标准化对于实现不同平台和供应商之间的硬件和软件的无缝集成至关重要。
Graphcore 在 FP8 方面的研究和开发,包括其在 NeurIPS 上的展示,表明了其对推进人工智能低精度计算的承诺。Graphcore 在 FP8 方面的积极研究表明了其对推进人工智能低精度计算的承诺。来自不同参与者的研究贡献有助于完善和改进对 FP8 的理解和实施。
Qualcomm 对推理使用 FP8 与 INT8 的看法有所不同 。虽然总体趋势是转向 FP8,但一些供应商(如 Qualcomm)认为整数格式(如 INT8)对于推理仍然很重要,并强调了在某些硬件中潜在的效率优势。这表明,最佳精度格式的选择可能取决于硬件和具体的工作负载。对不同低精度格式之间权衡的细致理解对于做出明智的硬件和软件部署决策至关重要。
NVIDIA、Arm 和英特尔共同撰写了一份白皮书,标志着在将 FP8 确立为互操作行业标准方面取得了进展。主要行业参与者合作定义和推广 FP8 规范是迈向标准化的重要一步,这将使整个人工智能生态系统受益。通用标准将有助于开发可在不同硬件平台上高效运行的可移植人工智能模型和软件。
FP8性能与精度的良好平衡
基准测试结果的详细分析比较了 FP8 和 FP4 与其他数据类型(FP32、FP16、BF16、INT8)在各种人工智能任务(LLM 的训练和推理、图像生成等)中的性能 。基准测试一致表明,与更高精度的格式相比,FP8 和 FP4 在内存节省和速度方面都有显着提高,尤其是在针对这些较低精度优化的硬件上。然而,改进的程度和潜在的精度影响可能因具体的模型、任务和实现而异。可量化的性能数据对于评估 FP8 和 FP4 的实际优势至关重要。
通过以下技术解决精度保持的关键方面:
混合精度训练: 大多数计算使用 FP8,而数值敏感的操作保留更高的精度(例如,FP16 或 BF16)。混合精度训练允许利用 FP8 的效率,而不会牺牲模型或训练过程某些部分所需的精度。识别需要更高精度的关键操作并有选择地应用它是成功进行低精度训练的关键策略。
量化感知训练 (QAT): 在训练模型时就考虑到推理时会将其量化为较低的精度,从而使模型能够学习对量化误差更具鲁棒性 。与后训练量化相比,QAT 通常可以获得更高的精度,尤其对于像 FP4 这样的极低精度格式。通过将量化的影响纳入训练过程,模型可以适应并在较低精度下保持更好的性能。
后训练量化 (PTQ): 将预训练模型量化为较低的精度,通常需要使用少量数据集进行校准 。PTQ 提供了一种更简单的方法来部署低精度模型,但与 QAT 相比,可能会导致更大的精度下降,尤其对于极低精度。PTQ 是一种更快地获得低精度模型的方法,但可能需要仔细评估以确保可接受的精度。
关键表格:浮点格式比较
特性 | FP32 | FP16 | BF16 | FP8 (E4M3) | FP8 (E5M2) | FP4 (E2M1) |
位宽 | 32 | 16 | 16 | 8 | 8 | 4 |
符号位 | 1 | 1 | 1 | 1 | 1 | 1 |
指数位 | 8 | 5 | 8 | 4 | 5 | 2 |
尾数位 | 23 | 10 | 7 | 3 | 2 | 1 |
近似范围 | ±10^38 | ±10^5 | ±10^38 | ±448 | ±10^24 | ±6 |
该表格提供了报告中讨论的不同浮点格式的简洁技术比较。它有助于理解精度(尾数位)、动态范围(指数位)和总大小(位宽)之间的权衡。
FP8 和 FP4 在大模型的成功示范
FP8 和 FP4 正在新一代智算中心中得到部署,老一代只能拍死在沙滩上。
大型语言模型 (LLM):
DeepSeek 成功使用 FP8 训练了 SOTA 模型 。这个实际示例证明了 FP8 用于训练即使是非常庞大和复杂的语言模型也是可行的。DeepSeek 的成就提供了经验证据,表明 FP8 可以有效地用于训练最先进的 LLM。
NVIDIA 的 Blackwell 使用 FP4 实现了 DeepSeek-R1 推理的创纪录性能。这突出了 FP4 在要求苛刻的 LLM 上实现高吞吐量推理的有效性。NVIDIA 在 DeepSeek-R1 上的基准测试展示了 FP4 在 LLM 推理方面的实际优势。
Meta 的 Llama 模型和 FP4 在推理中的使用 。FP4 在 Llama 等广泛使用的模型中用于推理,标志着其在 LLM 生态系统中的重要性日益增长。主要模型正在针对 FP4 推理进行优化,这表明其成熟度和潜力。
vLLM 对 FP8 推理的支持。像 vLLM 这样的开源服务引擎包含 FP8 支持,使得这项技术更容易被更广泛的人工智能社区所使用。开源的采用是新技术广泛使用的关键因素。
扩散模型(图像和视频生成):
NVIDIA 关于在 Stable Diffusion 中使用 FP4 保持图像质量的研究 。证明了 FP4 除了语言模型之外,还适用于其他生成式人工智能任务。能够将 FP4 用于计算密集型任务(如图像生成)展示了其多功能性。
推荐系统:
通过切换到 FP8 推理,可以降低能耗并提高吞吐量。这说明了 FP8 在研究基准之外的实际部署场景中的实际好处。成本节约和性能改进的实际示例对于推动采用至关重要。
医疗保健、汽车、金融科技、电子商务: 这些行业已经开始采用 FP8 。这表明 FP8 在人工智能发挥着越来越重要作用的各个领域都具有广泛的适用性。各个行业对 FP8 的广泛采用表明了其普遍的实用性和有效性。
FP8 和 FP4 对加速25年之前智能算力淘汰
采用这些低精度格式将影响硬件需求。对于具有专用 FP8 和 FP4 硬件加速功能的 GPU(例如,NVIDIA Hopper、Ada、Blackwell、Intel Gaudi)的需求将会增加 。转向较低的精度将推动对针对这些格式优化的特定类型人工智能加速器的需求。硬件制造商将继续创新并构建能够有效支持 FP8 和 FP4 操作的芯片。
每个模型的内存容量需求减少,从而实现更高的密度部署并可能降低内存成本 。内存是人工智能基础设施中的重要成本组成部分。较低的精度格式有助于缓解这些成本。在相同数量的内存上容纳更大的模型或更多的模型具有重要的经济意义。
由于数据大小较小,互连带宽需求可能会降低,但高带宽互连对于高效的分布式训练仍然至关重要。虽然较低的精度会减小单个数据点的大小,但大型人工智能模型中处理的数据量仍然需要高性能的网络。计算和通信之间的平衡在人工智能基础设施设计中仍然很重要。
能耗和能源效率将受到影响,有可能显着降低。较低精度的算术运算通常需要更少的功率,从而有助于数据中心实现更可持续和更具成本效益的人工智能运营。能源消耗是大型数据中心的主要关注点。FP8 和 FP4 可以在降低其环境影响和运营费用方面发挥作用。
未来以人工智能为中心的数据中心的总体设计需要考虑高性能计算的散热要求以及高效网络的重要性。智算中心需要针对人工智能硬件的功耗和散热需求以及分布式训练和推理所需的高带宽、低延迟网络进行专门设计。人工智能数据中心的基础设施需要发展以有效地支持人工智能工作负载的独特需求。
低精度智算中心的未来
低精度发展方向包含FP8、FP6、FP4甚至更低精度。
FP8 为训练提供了显着的效率优势,而 FP4 则为推理提供了显着的效率优势。
FP8 有可能与其他因素(如互连带宽和电源效率)一起成为评估下一代智算中心能力和效率的重要指标。FP4 对于在要求苛刻的人工智能应用中实现高性能和低延迟推理的重要性日益增长。
总而言之,降低精度格式(如 FP8 、FP6、 FP4)的趋势是智算中心中日益强大和高效的人工智能模型的持续发展和部署的关键推动因素。
算力宝典,第二章 算力中心从入门到精通【模式篇】
欢迎加入社群↓