算力宝典，第三章《算力中心从入门到精通【方案】》

原创算力百科 J 2025-04-14 06:00 贵州

“算力中心从入门到精通”应该是全网第一个系统介绍算力中心打单的材料，希望从“项目规划-资金申请-招投标运作-项目建设-算力运营”5方面打造“算力宝典”，服务希望深耕算力和大模型产业链的从业者，磨平认知差！

经验总结于我们团队过去5年服务超百个算力规划项目和30+算力落地项目的经验。

公众号也会发删减版，公众场合写的干货容易被和谐，更详细的内容就写在知识星球“算力百科”。

第一章：算力相关概念、分类和计算方式

1.1 算力概念

算力，作为计算设备处理信息的能力体现，在智算中心领域被赋予了更特定的内涵。它不仅仅是峰值运算速度，更是指面向 AI 工作负载，特别是深度神经网络（transferomer）训练和推理任务时，能够持续、高效输出的有效计算能力。这涉及到计算核心架构、内存子系统、互联能力以及软件栈优化等多个层面。

AI 算力的核心挑战在于处理海量数据和执行天文数字级别的浮点或整型运算（主要是矩阵乘法、卷积运算和transferomer），并且需要在多处理器/多节点间高效协同。

有很多人把算力跟电力做比喻，其实这是个错误的理解，电力最大的区别就是没有知识产权，不同品牌发电机发的电是通用的；算力是有知识产权的，不同品牌AI芯片提供的算力是有知识产权的，相互之间不兼容，无法通用。所以选择什么品牌的算力，是商业运营中能否成功的关键。

1.2 算力分类

1）通用计算算力 (General-Purpose Computing)

核心: CPU（如 Intel Xeon, AMD EPYC, ARM Neoverse，Risc-V），串行计算时代的代表；复杂的指令集（CISC 或 RISC），多级缓存（L1/L2/L3），乱序执行，分支预测，强大的单核或少核性能，支持虚拟化。

瓶颈: 并行度相对有限（几十个核心），内存带宽相对于 AI 加速器较低。

科学计算算力 (Scientific Computing / HPC):

核心: CPU + 加速器（早期如图形卡，现代如支持 FP64 的 GPU）。

架构特点: 强调高精度浮点（FP64）性能和低延迟互联网络（如 InfiniBand）。向量化处理单元（如 AVX-512）对性能提升显著。

与 AI 算力区别: 虽然现代 HPC 系统也大量使用 GPU，但其设计目标和软件栈侧重于模拟仿真类应用，对 FP64 精度要求更高，而 AI 训练更侧重 FP32/FP16/BF16 等较低精度下的吞吐量。

2）智能计算算力 (Intelligent Computing / AI Computing)

AI 加速器 (GPU, NPU, TPU, ASIC)。并行计算的代表，拥有数千甚至数万个简单计算核心。如 NVIDIA Tensor Core, Google Matrix Multiply Unit (MXU), AMD Matrix

Core, 华为 Da Vinci Cube 等，专门硬化矩阵乘加运算（MAC/FMA），支持混合精度计算。

高带宽内存 (HBM): 采用 HBM2e,HBM3, HBM3e 等技术，提供数 TB/s 的内存带宽，缓解“内存墙”问题。

高速片间/片上互联: 如 NVLink, Infinity Fabric, ICI 等，支持多芯片/多模块协同。

能效优化: 针对特定 AI 运算进行功耗优化。

未来CPU+GPU 融合是趋势，从目前AI芯片发展的角度AISoC是大势所趋，未来一定是一颗AISoC提供不同算力，通过软件调度满足各类需求，实现超算、智算和通算的融合，趋势明显。

最新一代和上一代显存咱无法量产，对咱禁运，咱只能用上上代产品！

1.3 算力计算方式

在日常讲算力的时候，通常会提到两个单位，FLOPS 与 TOPS，大家说算力的时候一定要看清楚单位

FLOPS 通常指浮点运算次数，TOPS 则常指（低精度）操作次数，尤其是在 AI 领域，1 TOPS 可能代表 1T 次 INT8 MAC 运算（即 2 T 次 INT8 操作）。需要明确指明数据类型（精度）和运算类型（加法、乘法、乘加）。

峰值 vs. 持续: 厂商公布的通常是理论峰值算力，实际应用中受内存带宽、互联、算法效率等因素影响，可持续算力远低于峰值。关于理论峰值到底是标多少，全评厂商的良心，因为基本上没人去测试，国内AI芯片厂商通常会多往上虚标10~40%，这是潜规则，比如某AI芯片是1000T INT8 ，如果虚标40%，实际测试最多测试600T INT8，默认潜规则。

1）AI 算力特定精度性能:

FP64:对 AI 非核心，但在需要高精度梯度的科学 AI 交叉领域可能用到。

FP32:基准精度，易于编程和调试，但效率相对较低。

TF32:NVIDIA Ampere 及后续架构默认的 Tensor Core 计算格式，旨在平衡 FP32 的易用性和 FP16 的性能，无需修改代码即可获得加速。

FP16:包含 IEEE 754 标准半精度和 BF16。

IEEEFP16: 动态范围较小，训练时易溢出，常需要配合动态损失缩放 (Dynamic Loss Scaling)。

BF16(Brain Float): 动态范围同 FP32，训练稳定性更好，被 Google TPU 和新一代 NVIDIA/AMD GPU 广泛支持。

FP8:Hopper/Blackwell GPU 引入，分为 E4M3 和 E5M2 两种格式，进一步提升吞吐量和降低内存占用，需要配合特定技术（如Transformer Engine）保证精度。

INT8:推理主流精度，需量化感知训练 (QAT) 或训练后量化(PTQ) 技术支持。INT4 等更低精度也在探索中。

稀疏计算 (Sparsity): NVIDIA Ampere 及后续架构支持结构化稀疏（2:4），可在特定条件下使有效算力翻倍。

2）实际性能考量 :

AI卡主要部件是两个AI芯片+显存芯片，显存芯片主要分四类：

AI卡的算力影响因素主要是：AI芯片算力，AI芯片计算精度，显存容量，显存带宽，四个核心因素影响。

考虑到功耗和成本以及AI卡的目标市场不同，所以目前不同品牌AI卡的显存选型不同，没有好坏，只是说最适合。

四种显存基本上都是国外垄断，最先进的一代，对中国禁售，因为最先进的一代，中国无法量产，我们在追赶中。

第二章：智算中心经典技术架构设计

2.1 一般遵循的几个原则

智算中心架构设计直接关乎未来商业运营是否成功，说实话，目前算力中心除了互联网公司设计的算力中心商业运行的还可以，其他厂商设计的算力中心，基本上商业运营都很拉跨。

高性能: 不仅指峰值算力，更强调实际应用性能和线性扩展能力（Scale-out Efficiency）。这里需要特别指出线性度国产ai卡和n卡的主要区别就在这里，建设100P和1000P乃至10000P算力中心，线性度这个指标很重要，大多数国产算力中心只有1000P建设经验，有万P建设经验的就百度和华为两家，这两家还都在试验阶段，这里面主要是技术的积累，N卡积累啦30年，国产AI芯虽然在快速进步，但是依然需要时间。

高带宽、低延迟: 需关注网络 bisection bandwidth（对剖带宽）、端到端延迟、RDMA 效率。存储系统也需提供与计算匹配的 IO 带宽和低延迟。

主要是两种网络IB和ROCE，InfiniBand（IB）和 RDMA over Converged Ethernet（RoCE）在算力中心中的技术对比：

如果是训练集群就直接选择IB，如果是推理集群直接选择roce，IB交换机只有英伟达有，全球垄断。Roce交换机可以实现国产化。

可扩展性: 架构应支持“积木式”扩展，新增节点/机柜/存储/网络设备时，对现有系统影响小，且性能可预测性增长。采用 Spine-Leaf 等可扩展网络拓扑。

高能效（绿色）:PUE 只是指标之一，还需关注单节点能效（Perf/Watt）、液冷效率、供电效率、智能化能耗管理（如根据负载动态调整频率、休眠节点）。PUE（Power Usage Effectiveness，电源使用效率），是衡量数据中心能源效率的核心指标，表示数据中心总能耗与 IT 设备（服务器、存储、网络等）能耗的比值，

关于夜冷还是风冷，主要看算力中心定位，推理集群就是风冷，训练集群就选液冷；别听厂商

高可靠性与可用性:细化到部件冗余（电源、风扇、NIC、端口）、网络路径冗余（ECMP、链路聚合）、存储冗余（RAID、纠删码、多副本）、控制平面高可用、快速故障检测（BFD、硬件传感器）与恢复（自动隔离、热备切换）目。标是达到 4 个 9 或 5 个 9 的可用性。

易管理性与易用性:涉及自动化部署、统一监控视图、标准化 API、用户友好的资源申请与作业提交界面、完善的文档和技术支持。

安全性: 包括物理安全、网络安全（访问控制、防火墙、入侵检测）、系统安全（漏洞扫描、安全加固）、数据安全（加密、脱敏、权限管理）、模型安全（防窃取、防篡改）、供应链安全。

2.2 典型技术架构

计算、网络、存储是算力中心三大功能要素，计算分cpu和gpu，网络分roce和ib，存储分高性能和普通存储，一分钱一分货；

2.2.1 计算层

算力服务有机架服务器形态（4U~10U之间），整体机柜形态两种形态！

服务器形态: 除了机架式，也可能采用 OCP (Open Compute Project) 标准的服务器或高密度刀片/多节点服务器。

异构资源配比: CPU 核数、内存容量需要与 AI 加速器的数量和性能相匹配，避免 CPU 成为瓶颈（如数据预处理跟不上）。通常推荐 CPU 核数与 GPU 数量有一定比例，内存容量至少是总显存容量的 1-2 倍。

本地存储作用: NVMe SSD除了 OS 和缓存，还可用于分布式训练中的临时数据存储（如ZeRO 优化中的参数 offload）。

算力卡的形态：PCIe卡、OAM模组、MXM、M .2等等不同形态。

2.2.2 网络层

计算网络 (Fabric):RDMA 通过内核旁路（Kernel Bypass）和直接内存访问，实现极低延迟。关键组件包括 Verbs API、队列对（Queue Pairs, QPs）、完成队列（Completion Queues, CQs）。IB 原生支持 RDMA，RoCE 则需要在以太网上实现。

无损网络 (Lossless Ethernet for RoCE):PFC (Priority-based Flow Control, IEEE802.1Qbb): 基于优先级的 Pause 帧，防止接收端缓冲区溢出。需要端到端配置。

ECN (Explicit Congestion Notification, RFC 3168): 在 IP 头和 TCP 头标记拥塞，让发送端降低速率，而不是直接丢包。交换机需支持标记，网卡和协议栈需能响应。

DCBX (Data Center Bridging Capability Exchange Protocol): 用于自动协商 PFC、ECN 等参数。

InfiniBand 是一种具有高带宽、低延迟、支持 RDMA 功能，适用于高性能计算、数据中心等场景的高速计算机网络技术。

能够提供非常高的传输带宽，目前常见的 InfiniBand 网络带宽可达 100Gbps、200Gbps 甚至更高，满足大规模数据传输的需求。InfiniBand 的延迟极低，通常在微秒级别，这使得它在对实时性要求极高的应用场景中表现出色，如高频交易、高性能计算等

拓扑细节: Fat-Tree 提供多条等价路径（ECMP），增加带宽和容错性。Dragonfly、Torus 等拓扑在超大规模下可能提供更好的直径和成本效益，但路由和管理更复杂。

存储网络: 高性能场景（如并行文件系统）通常也采用 IB 或 RoCE，以获得低延迟和高吞吐。对象存储访问则多基于标准 TCP/IP 以太网。网络可能物理隔离或通过 VLAN/VRF 逻辑隔离。

管理网络: 带外管理（OOB）通道，独立于数据网络，用于远程控制台（Serial-over-LAN）、电源控制、硬件监控（传感器读数）、固件更新等。通常连接到服务器的 BMC (Baseboard Management Controller)。

2.2.3 存储层

高性能共享存储 :并行文件系统 (Lustre/GPFS): 架构通常包含元数据服务器 (MDS) 和对象存储服务器 (OSS)。元数据性能是瓶颈之一，可能需要配置多个 MDS 或采用基于 DSSD 的 MGS/MDT。数据在多个 OST (Object Storage Target) 间条带化 (striping)存储以提高并行度。客户端通过专用协议 (LNet) 访问。

高性能 NAS/分布式文件系统: 通常提供NFS, SMB, S3 等多种访问协议。内部可能采用 NVMe-oF (over Fabrics) 等技术实现低延迟。针对 AI 优化可能包括对海量小文件的优化、元数据操作加速、与 GPU DirectStorage (GDS) 的集成等。

GPU Direct Storage (GDS): 允许 GPU 直接从 NVMe 存储（本地或通过 NVMe-oF）读取数据，绕过 CPU 内存，降低数据加载延迟和 CPU 负担。需要文件系统、驱动和应用支持。

数据湖 / 对象存储 : 除了容量，还需考虑数据一致性模型（最终一致性 vs 强一致性）、API 性能（GET/PUT

OPS）、数据冗余与可用性（纠删码 vs 多副本）、安全性（加密、权限控制）、数据生命周期管理（分层存储、归档）等。

缓存层 : 可以是客户端缓存（计算节点本地 SSD）、存储系统内部缓存（DRAM, NVMe SSD）或独立的缓存系统（如 All-Flash 阵列）。缓存策略（如 LRU, LFU）和一致性维护是关键。

最简单的方式直接用deepseek开源的3FS系统，全开源的。

2.2.4 管理与调度层

集群管理软件: 除了部署和监控，还可能集成健康检查、固件管理、能耗管理等功能。

资源调度 :

Slurm:功能强大，支持作业数组、依赖关系、抢占、记账、插件扩展。广泛用于 HPC，超算用的多，作业调度。

Kubernetes:更适合容器化、微服务化应用。通过 CRD (Custom Resource Definition) 定义 AI 作业，通过专用调度器（如 Volcano, Scheduler Plugins）增强批处理、资源公平性、亲和性/反亲和性、拓扑感知能力。

混合调度: 可能同时使用 Slurm (负责底层批处理) 和 K8s (负责上层服务和部分AI 任务)。

监控告警 :监控粒度: 需要细化到 GPU 内部单元利用率（TensorCore, SM, Memory Controller）、NVLink 带宽、IB/RoCE 端口流量和错误计数器、存储 IO 延迟分布等。

日志分析: 利用 LogQL (Loki) 或Lucene query (Elasticsearch) 进行结构化查询，关联分析。

自动化运维 : 除了配置管理，还包括自动化测试（单元测试、集成测试、压力测试）、CI/CD 流水线（用于平台自身和用户应用的部署）、自动化故障演练等。

2.2.5 AI 平台层

容器运行时: Docker (dockerd), containerd, CRI-O。关注其与K8s 的集成、性能开销、安全性。NVIDIA Container Toolkit 负责将 CUDA 库和设备映射到容器内。

镜像管理: 使用 Harbor 等私有镜像仓库，进行镜像扫描、签名、访问控制。优化基础镜像大小和构建速度。

MLOps / AI 中台 :数据管理: 与 DVC, Pachyderm 等工具集成，实现数据版本化、血缘追踪。

模型开发: Jupyter Lab/Notebook 环境的资源隔离、持久化存储、多人协作支持。

训练管理: 支持多种分布式训练策略配置界面；与实验跟踪工具（MLflow, Weights& Biases）深度集成。

模型管理: 模型元数据标准化，模型评估报告，模型可解释性工具集成 (SHAP, LIME)。

部署推理: 支持 Canary 部署、Blue/Green部署、A/B 测试；集成模型优化工具（如 TensorRT,ONNX Runtime, OpenVINO）；提供 Serverless 推理选项。

工作流编排: Kubeflow Pipelines/Argo Workflows/Airflow DAG 定义，触发机制，失败重试，参数传递。

2.2.6 基础设施层（风火水电）

供电系统 : HVDC(高压直流): 如 240V 或 380V DC，相比传统 AC UPS 可减少转换次数，提高效率（可达 96%+），减少线缆体积。需要服务器和 IT 设备支持。

UPS:N+1, N+N (2N), DR (Distributed Redundant) 等不同冗余级别。关注电池类型（铅酸 vs 锂电）、备电时间、维护。

PDU(Power Distribution Unit): 机架级电源分配。智能 PDU 可实现端口级监控和远程开关控制。

散热系统 :

详细参数: 关注送风/回风温度、水温（冷冻水/冷却水/液冷工质）、流量、压降等。

气流组织: 冷热通道封闭、盲板、机柜密封性对风冷效率至关重要。

液冷细节: CDU 类型（室内/室外、液-液/液-风）、冷却液类型（导电性、腐蚀性、环保性）、管路材质、快速接头可靠性、泄漏检测系统（点式 vs 线缆式）。

机房环境 : TIA-942 等数据中心等级标准，抗震、防水、防火（气体灭火系统）、防静电、电磁屏蔽等。

有一个事说一下，就是可靠性，国家对IDC是有评级标准的ABC等级，但是因为这个标准是之前CPU时代的产物，并不是gpu时代的产物，cpu时代比如金融银行大家追求的是99.999%的可靠性。

但是在GPU时代，发现AI系统都是在不同的gpu卡上跑，卡本身掉线率很高，所以大家对宕机掉线这个事稀松平常，所以关于可靠性就很难衡量！

比如很多AIDC我没有ups，没有柴发，就两路市电，我算力卖的便宜一点，也能卖出去，等等！而那些高端的A级机房的算力却卖不出去啦，因为价格太高，客户更愿意选择价格低的算力，很神奇的现象！

第三章：智算中心算力、网络和存储产品

3.1 算力产品 (AI 服务器)

英伟达CUDA是全球AI事实标准，全球高端算力95%是CUDA算力，英伟达拥有独立知识产权。

NVIDIADGX/HGX: DGX 是 NVIDIA 自家软硬件一体系统，HGX 是包含 GPU Baseboard、NVSwitch、NVLink 等关键组件的平台规范，供 OEM 厂商构建自家服务器。最新如 HGX B200/B100。

OAM(OCP Accelerator Module): 开放计算项目定义的加速器模块标准，旨在解耦加速器与服务器主板，提供标准化接口（供电、散热、管理、高速互联如 PCIe/CXL），AMD Instinct MI300X 等采用此形态。

多节点服务器: 在 2U 或 4U 或多U空间内容纳多个计算节点（每个节点有自己的 CPU、内存、存储、网卡），通过内部交换结构互联，提高密度。

关键技术组件 :

CPU 选型: Intel Xeon SP (Sapphire Rapids, Emerald Rapids),AMD EPYC (Genoa, Bergamo) 在 PCIe 通道数 (Gen5)、核心数、内存带宽（DDR5）、CXL 支持等方面竞争。ARM 架构（如Ampere Altra, NVIDIA Grace）在能效和核心数上可能提供优势。

内存配置: 容量（TB 级别）、通道数（8/12通道）、频率（DDR5 4800/5600+ MT/s）。NUMA(Non-Uniform Memory Access) 架构对性能有影响，需注意内存与 CPU/GPU 的亲和性配置。

内部互联: NVSwitch 芯片或者PCIeSwitch，其数量和连接方式决定了 GPU 间的拓扑和带宽。NVSw诞生的背景是NV嫌弃PCIeSw发展太慢，所以自己搞了一个标准，引领世界！

NIC配置: DPU网卡数量通常与 GPU 数量成比例（如 8 卡配 4 或 8 个 400G/800G 网口），以匹配 GPU 算力与通信需求。网卡需靠近 GPU 或通过 PCIe Switch 高速连接。

散热集成: 高功耗 AI 服务器通常预先设计好风冷或液冷散热方案（如集成冷板和管路接口）。

3.2 网络产品

芯片: 交换机性能核心在于其内部的交换芯片（ASIC），如 Broadcom Tomahawk/Jericho, NVIDIA

Spectrum, Cisco Silicon One 等。关注其总带宽、包处理能力 (PPS)、缓冲区大小、延迟、支持的特性（RoCE, PFC/ECN, 路由协议, 遥测）。

端口密度与形态: 单 RU 交换机可提供 32-64 个 400G/800G 端口。端口形态 OSFP 和 QSFP-DD 是 400G/800G 主流。

软件与管理: 交换机操作系统（如 Arista EOS, Cisco NX-OS, Juniper

Junos, SONiC）的功能、开放性、自动化接口（NETCONF/YANG, gNMI）也很重要。

网络接口卡：卸载能力: 除了 RDMA，现代 NIC 还可能卸载 TCP/IP 协议栈、加密（TLS/IPsec）、虚拟化（SR-IOV）、网络遥测等功能，降低 CPU 负载。

DPU/IPU(Data Processing Unit / Infrastructure Processing Unit): 更智能的网卡，集成了强大的 CPU 核心（通常是 ARM）、内存和可编程加速引擎。可以运行网络、存储、安全等基础设施服务，进一步解放 Host CPU。如：NVIDIA BlueField DPU, Intel IPU。

线缆与光模块 : 400G/800G

技术: 可能采用 PAM4 (Pulse AmplitudeModulation) 信号调制技术。根据距离和成本，光模块有多种类型，如 400G DR4 (500m),FR4 (2km), LR4 (10km)；800G DR8, 2xFR4, LR8 等。相干光技术用于更长距离传输。

功耗: 高速光模块功耗不容忽视（单个可能 10-20W），影响机柜散热和供电预算。

IB交换机是英伟达独家产品，垄断供应商，Roce国内很多家能生产，用的芯片大部分是博通的，博通垄断了中国高端交换机芯片市场。

3.3 存储产品

架构细节: MDS 处理元数据请求（文件打开、查找、属性修改），OSS 处理数据块读写。MDS 性能对小文件和元数据密集型负载至关重要。Lustre 的 DNE (Distributed Namespace) 功能可扩展元数据性能。

客户端: 需要在计算节点安装客户端软件，并进行调优（如 stripe size/count,RPC size）。

高性能分布式文件系统 / NAS : 协议支持: NFSv3, NFSv4.x, SMB 2/3, HDFS, S3 API。NFS over RDMA 可以提供更低延迟。

内部架构: 通常是全对称、无共享 (Shared-nothing) 架构，元数据和数据分布在所有节点。采用 NVMe SSD 和高速网络互联。可能包含智能分层、快照、复制、QoS 等功能。

对象存储 :纠删码 (Erasure Coding, EC): 相比多副本，EC 提供更高的存储效率（如 10+4 EC 只需 1.4 倍冗余开销，而 3 副本需要 3 倍），但读写（尤其是写和重建）性能开销更大。需要根据数据重要性和访问模式选择。

一致性: S3 默认提供 Read-after-write consistency for PUTs of new objects 和 Eventual consistency for overwrite PUTs and DELETEs。某些对象存储系统可以提供强一致性选项。

NVMe-oF (NVMe over Fabrics):允许通过网络（如 IB, RoCE, TCP, Fibre Channel）访问 NVMe SSD，提供接近本地 NVMe 的性能。可用于构建高性能、低延迟的存储网络或 JBOF (Just a Bunch of Flash) 资源池。

这玩意目前最好的就是deepseek 开源的3FS系统，3FS（Fire - Flyer File System）是 DeepSeek 开源的一款高性能分布式文件系统，专为 AI 训练、大规模数据处理和推理优化设计，直接用。

第四章：智算中心主流国外、国内芯片解析

这一章比较难写，国内很多AI芯片不太好写太多，记住一句话，短时间半导体突破之前，国内和国外的AI芯片差距在逐步拉大，也许到27年甚至30年，才有可能逐渐缩小差价。

4.1 国外主流芯片

4.1.1NVIDIA GPU :全球老大

架构细节: 每个 SM (Streaming Multiprocessor) 内部包含 CUDA Cores, Tensor Cores, Load/Store Units, Special Function Units,L1 Cache/Shared Memory。Hopper/Blackwell 架构引入了异步执行、线程块集群 (Thread Block Clusters) 等特性提升 SM 效率。Transformer Engine 通过动态选择 FP8/FP16 格式并管理缩放因子来加速 Transformer 模型。

MIG(Multi-Instance GPU): Ampere 及之后架构允许将一块物理 GPU 划分为最多 7 个独立的 GPU 实例，每个实例有自己的计算资源、内存和带宽，提供硬件隔离，适用于多租户推理或小任务场景。

Grace CPU: NVIDIA 基于 ARM Neoverse V2 设计的高性能 CPU，与 Hopper/Blackwell GPU 通过 NVLink-C2C (Chip-to-Chip) 极高带宽（900GB/s）互联，形成 Grace Hopper / Grace Blackwell Superchip，旨在解决 PCIe 带宽瓶颈，提升 CPU-GPU 协同效率。

4.1.2Google TPU :创新标杆引领

架构细节: 核心是 MXU (Matrix Multiply Unit)，一个大型脉动阵列，特别适合执行密集的矩阵乘法。每个 TPU 核心还包含 VPU (Vector Processing Unit) 和 Scalar Unit。TPU v4 及之后采用 OCS (Optical Circuit Switching) 光交换技术构建 ICI互联，实现极高带宽、低延迟、低功耗的 Pod 级扩展（数千个核心）。

软件栈: 主要配合 TensorFlow (XLA 编译器) 和 JAX 使用。编程模型与CUDA 不同，需要适应 TPU 的架构特性。

4.1.3AMD Instinct GPU :黄埔军校，国内很多AI创业公司的老师

CDNA架构: 区别于面向图形的 RDNA 架构，CDNA 专为计算优化。MI300 系列采用 Chiplet 设计，将多个 XCD (Accelerator ComplexDie) 和 IO Die 封装在一起。

ROCm生态: 包含 HIP(Heterogeneous-computing Interface for Portability，提供类似CUDA C++ 的编程接口)、各种库 (rocBLAS,rocFFT, MIOpen, RCCL) 和编译器。AMD 正大力投入追赶 CUDA 生态。

Intel Gaudi : 片上网络: Gaudi 2 集成了 24 个100GbE RoCE 网卡，Gaudi 3 集成了 24 个 200GbE RoCE 网卡，可以直接构建大规模集群，无需外部 NIC 和交换机（或减少对外部交换机的依赖），这是其架构的主要特色。

软件栈: SynapseAI 软件套件，支持 TensorFlow 和 PyTorch，提供图编译器和通信库。

4.2 国内主流芯片

4.2.1华为昇腾 (Ascend) :全村的系统

达芬奇架构: 核心是 AI Core，其 3DCube 单元支持多种精度（FP16, INT8, BF16 等）的 M*N*K 矩阵乘法。还包含向量和标量计算单元。

AscendC 编程语言: 华为推出的类似 CUDA C++ 的面向昇腾的编程语言，允许开发者进行更底层的性能优化。

集群互联: 除了片上 RoCE，也支持通过高速SerDes 连接外部交换机组网。华为也提供配套的集群通信库 HCML。

4.2.2寒武纪 (Cambricon) :上市大佬

MLUCore: 包含标量、向量、张量计算单元，支持多种精度和稀疏计算。

MLU-Link:多代产品使用的片间互联技术，提供高带宽。

BANG语言: 寒武纪推出的底层编程语言。

还有一众Ai芯片公司，不一一列举

共性挑战 :

软件生态: 相比 CUDA 近 20 年的积累，国内厂商的软件栈（编译器、库、工具链、框架适配度）仍需时间完善和打磨，开发者社区和成熟应用案例也相对较少。这是制约其广泛应用的主要因素。

性能与能效: 在单卡峰值性能和实际应用性能上，与国际顶尖产品可能仍有差距，特别是在最新一代产品的竞争中。能效比也是关键考量。

供应链: 高端 AI 芯片的制造依赖先进制程（如 5nm, 3nm），受全球半导体供应链影响较大。

互联标准: 国内厂商的片间互联技术多为私有，跨厂商互通性是个挑战。

线性度：国产厂商AI芯片组千卡，万卡，十万卡甚至百万卡集群经验很少，或者很多组起来基本上集群不可用；

4.3 芯片选型考量

工作负载匹配度: 推理任务对 INT8/FP8 性能、延迟、批处理大小（Batch Size）敏感；训练任务对对FP16/BF16/TF32 性能、内存容量/带宽、互联带宽敏感。特定模型（如 Transformer vs CNN）可能在不同架构上表现不同。软件栈锁定与迁移成本: 选择某个硬件平台通常意味着对其软件栈的投入。评估从现有平台（如 CUDA）迁移到新平台（如 ROCm, CANN, Neuware）的成本和难度。

TCO (Total Costof Ownership): 除了芯片采购成本，还包括服务器、网络、存储、软件授权、电力、制冷、运维人力等长期成本。能效高的芯片有助于降低运营成本。

未来路线图与支持: 评估供应商的技术路线图、产品迭代周期、技术支持能力和生态合作策略。

选择芯片就一个原则，就是发布的时间，芯片发布时间越近，越好，能买新一代，就不买上一代，因为大部分的ai模型优化都是优化最新一代，上一代基本上拍死在沙滩上。

所以选芯片先看架构，比如n的Ampere、hopper（ada）、Blackwell架构，别被忽悠。

第五章：芯片间、设备间互联技术分析

5.1 芯片间互联 (Intra-Server /Inter-Chip)

NVLink & NVSwitch :

物理层: 基于高速 SerDes (Serializer/Deserializer) 技术。

协议层: 私有协议，针对 GPU 通信优化。

拓扑演进:

早期（P100/V100）: Hybrid Cube Mesh。

A100 (HGX): 8 GPU 通过 6 个NVSwitch 实现全连接，提供 600GB/s 双向带宽/GPU。

H100 (HGX): 8 GPU 通过 4 个第 3 代 NVSwitch（或等效集成）实现全连接，提供 900GB/s 双向带宽/GPU。

B200 (GB200 NVL72): 72 个 Blackwell GPU 通过第 4 代 NVSwitch 实现两级Clos 网络拓扑的 NVLink Fabric，提供1.8TB/s 双向带宽/GPU。

PCIe :

协议层: 基于包交换，支持 TLP (Transaction Layer Packet)。

物理层: Lane（通道）和速率。Gen5 每Lane 速率 32 GT/s，Gen6 达 64 GT/s (PAM4 编码)。x16代表 16 个 Lane。

瓶颈: 带宽相对 NVLink 低，且CPU 通常是 PCIe 的根复合体（Root Complex），GPU 间通信可能需要绕道 CPU 或经过 PCIe Switch，增加延迟。

CXL :

协议栈: CXL.io 基于 PCIe TLP；CXL.cache 和 CXL.mem 运行在 CXL 事务层，定义了新的 Flit (Flow control unit) 格式。

应用场景细化:

内存扩展 (Memory Expansion): Type 3 设备，连接 DRAM 扩展卡，增加 CPU 可用内存容量。

内存池化 (Memory Pooling): Type 3 设备，构建可被多个主机共享的内存池，提高内存利用率。

加速器内存共享 (Accelerator Memory Sharing): Type 1/2 设备（如 GPU）通过 CXL.cache/mem 与 CPU 共享内存或让 CPU 直接访问设备内存。

生态: 需要 CPU, 设备（GPU, FPGA, SmartNIC, 内存控制器）以及操作系统、虚拟机管理程序（Hypervisor）的同时支持。Intel Sapphire Rapids/Emerald Rapids, AMD Genoa/Bergamo 已支持 CXL 1.1。

其他片间互联: 如 Intel UPI (Ultra Path Interconnect) / xGMI (AMD) 用于多路 CPU 互联。

是否支持卡间互联是判断AI卡高端和低端的分水岭；通常情况下，支持的为高端，不支持的为低端。

第六章：智算中心运维的挑战和方案

6.1 主要挑战

设备维修：高端设备都是特殊渠道进入AIDC，很多设备没有维保，或者国内没有维修能力，损坏了只能靠备机或自己想办法。

故障定位的复杂性: 性能下降或任务失败的原因可能横跨硬件（CPU, GPU, 内存, NIC, 交换机, 线缆, 存储）、软件（驱动, OS,

库, 框架, 应用代码）、配置（网络, 存储, 调度器）、甚至环境（温度, 功耗）等多个层面，定位难度极大。

“静默错误” (Silent Errors): 硬件可能不产生明确告警，但计算结果出错（如 GPU

计算错误），难以检测。需要专门的校验和健康检查程序。

软件栈更新风险: 任何一个组件（如 CUDA 驱动）的更新都可能引发兼容性问题或性能衰退，需要充分的测试验证。回滚机制是必要的。

资源碎片化: 由于任务资源需求多样、调度策略限制或硬件故障，可能导致集群中出现大量无法被有效利用的小块资源碎片。

多租户环境下的性能干扰: 不同租户的任务可能在共享的网络、存储或管理节点上相互影响性能。需要有效的 QoS 和隔离机制。

6.2 运维解决方案

6.2.1 自动化运维

GitOps: 将基础设施和应用的期望状态存储在 Git 仓库中，通过自动化工具（如 Argo CD, Flux）自动将实际状态同步到期望状态，实现声明式、版本化的运维管理。

自动化测试: 在部署、变更前后自动执行基准性能测试（如 HPL, STREAM, NCCL Tests, MLPerf）、功能测试、故障注入测试，确保变更的正确性和性能影响。

6.2.2 统一监控与告警平台

一定要基于开源工具链自己迭代，这是基本功！工具链

指标采集: Prometheus (Pull 模型) + Exporters (如 `node_exporter`, `dcgm_exporter` for GPU, `snmp_exporter` fornetwork, `lustre_exporter`), Telegraf (Push 模型), ZabbixAgent。

日志采集: Fluentd, Fluent Bit, Logstash, Promtail。

追踪 (Tracing): Jaeger, Zipkin (主要用于微服务应用，在 AI 平台层可能用到)。

数据存储: VictoriaMetrics, Thanos, Cortex (用于Prometheus HA 和长期存储), Elasticsearch, Loki。

可视化: Grafana。

告警: Alertmanager。

关键监控指标细化:

GPU:`gpu_utilization`, `memory_utilization`, `power_draw`, `temperature`,`nvlink_throughput`, `pcie_throughput`, `ecc_errors`(correctable/uncorrectable), `clock_speeds`, `throttle_reasons`。

网络: `interface_bytes_rx/tx`, `interface_packets_rx/tx`,`interface_errors_rx/tx`, `interface_discards_rx/tx`, RDMA counters(`port_xmit_wait`, PFC/ECN counters), Switch buffer usage, Latency (ping,

iperf, qperf)。

存储: `disk_io_bytes/ops_read/write`, `disk_io_time`, Filesystem

usage/inodes, Lustre/GPFS MDS/OSS performance counters, NFS latency/throughput。

作业: Job queue length, Wait time, Run time, Resource usage

(CPU/GPU/Mem), Exit status。

6.2.3 智能化运维 (AIOps)

异常检测: 时间序列模型 (ARIMA, Prophet), 统计方法 (3-sigma), 机器学习 (Isolation Forest,One-Class SVM, Autoencoders)。

根因分析: 基于关联规则挖掘、图神经网络（GNN）构建依赖关系图谱。

预测: 时间序列预测模型（LSTM, Transformer）。

平台集成: 将 AIOps 能力集成到监控告警平台或独立的 AIOps 平台中，提供自动化的洞察和建议。

6.2.4 集群管理与作业调度

调度策略细化: Backfill（回填调度，提高利用率）、Fairshare（公平共享，防止用户饿死）、QoS（服务质量，保证高优先级任务）、Topology-aware scheduling（感知网络拓扑，将通信密集的任务放置在网络距离近的节点上）、Resource reservation（资源预留）。

作业环境管理: 除了容器和 Modules，还可能需要支持 Conda 等 Python 环境管理工具。

6.2.5 容器化与环境管理

安全性: 容器镜像安全扫描（如 Trivy, Clair），运行时安全（如 Falco），最小权限原则，使用非 root 用户运行容器，配置 Security Context。

网络: K8s CNI(Container Network Interface) 插件（如 Calico, Cilium,Flannel）的选择和配置，影响容器网络性能和特性。

存储: K8s CSI(Container Storage Interface) 插件，对接后端存储，提供持久卷（PV）和存储类（StorageClass）。

6.2.6 健康检查与故障自愈

检查工具: HPL(Linpack), STREAM (内存带宽), GPU Burn, NCCL tests (网络通信), `fio` (存储 IO), `health-checker` (Slurm)。

自愈逻辑: 定义精确的触发条件和恢复动作。例如，检测到 GPU ECC 错误超阈值，自动 Cordon 节点并尝试 GPU Reset，失败则 Drain 节点并创建维修工单。

6.2.7 标准化运维流程

CMDB(Configuration Management Database): 维护准确、最新的配置信息库，是自动化和故障排查的基础。

事件管理与工单系统: 使用 ITIL 等框架管理事件、问题、变更流程。集成工单系统（如 JIRA ServiceManagement, ServiceNow）。

第七章：智算中心液冷不是必须的

液冷不是必须的，除了B200以上的服务器，一定是量力而行，性价比才是最重要的，租赁主要是价格战训练对于液冷相对高一些，但是推理一定是成本月底越好。

7.1 液冷需求分析 (驱动因素)

热流密度 (HeatFlux): 芯片面积不变或缩小的同时功耗急剧增加，导致芯片表面的热流密度（W/cm²）极高，远超风冷能有效处理的极限（通常认为在 100 W/cm² 以下）。

环境温度要求: 液冷（尤其是温水液冷）可以允许更高的数据中心运行温度（如 ASHRAE 标准中的 W4/W5 级别，进水温度可达 40-45°C），进一步降低对冷冻水的依赖，利用自然冷却（Free Cooling）的时间更长。

机房空间与成本: 在地价昂贵或空间受限的地区，通过液冷提升机柜密度，可以在更小的占地面积内部署相同算力，节省机房建设和租赁成本。

7.2 液冷技术方案

7.2.1 直接液冷 / 板级液冷

冷板设计: 材质（铜、铝）、内部流道结构（微通道、扰流柱）、表面处理影响换热效率和压降。需要精密设计以匹配芯片热点。

冷却液 (Coolant):

水: 纯水或去离子水，比热容高，廉价。但导电，泄漏风险大，可能需要添加缓蚀剂。

乙二醇水溶液: 降低冰点，提供一定润滑性，但比热容和导热性低于水。

单相工程液 (Dielectric Fluid): 绝缘，泄漏风险小，但价格昂贵，比热容和导热性通常不如水。

CDU (Coolant Distribution Unit) 类型:

液-液 CDU: 将服务器液冷回路的热量通过板式换热器传递给数据中心的二级冷却水（如冷冻水或冷却塔水）。效率高。

液-风 CDU (In-Row Cooler): CDU 内置风扇和散热盘管，将服务器液冷回路的热量直接散发到机房空气中。适用于无法提供二级冷水的场景，但效率较低。

泄漏检测: 点式传感器（检测特定位置漏液）、线缆式/绳式传感器（沿管路敷设，检测区域漏液）、压力/流量异常检测。

7.2.2 浸没式液冷

类型: 碳氢化合物（矿物油）、氟化液（如 Novec, Fluorinert）、酯类等。

关键参数: 介电强度、导热系数、比热容、粘度、沸点（两相）、材料兼容性、闪点、毒性、环境影响（GWP- 全球变暖潜能值）、成本。

维护: 需要定期过滤、监测液体品质（酸度、含水量）、补充挥发损耗。

Tank 设计: 开放式 vs 密封式。密封式可减少液体挥发和污染。材质选择需考虑兼容性和承重。

两相浸没的挑战: 沸腾传热效率极高，但也存在沸腾不稳定、过热、冷凝效率等问题。需要精确控制压力和温度。冷凝器设计是关键。

硬件兼容性: 需要确认服务器所有组件（电容、连接器、标签、线缆）与所选冷却液长期兼容。某些材料可能溶胀、溶解或降解。

7.2.3 机柜级液冷 / 后门热交换器

被动式 (Passive RDHx): 依靠服务器风扇推动空气通过后门。

主动式 (Active RDHx): 后门自带风扇，增强气流，提供更高散热能力。

应用场景: 适用于对现有风冷数据中心进行升级改造，或功率密度需求在中等水平（如 30-50kW/柜）的场景。

7.3 液冷方案选型考量

混合方案: 可能采用混合散热策略，如对最高功耗的 GPU/CPU 采用直接液冷，其他部件（如内存、硬盘）仍保留风冷，以平衡成本和效率。

标准化与互操作性: OCP 的 ACS (Advanced Cooling Solutions) 等项目正在推动液冷接口（如 UQI - Universal Quick Disconnect Interface）和 Manifold 的标准化。

全生命周期成本 (TCO): 需要仔细评估初期投资（CapEx）和长期运营成本（OpEx，包括电费、水费、冷却液补充、维护费用）。液冷虽然 CapEx 高，但可能通过显著降低 OpEx 而在 TCO 上获得优势。

可靠性数据: 评估不同方案和供应商产品的实际运行可靠性数据和 MTBF（平均无故障时间）。

第八章：智算中心运营方案

写在《运营篇》

一个只说大实话的算力和大模型工程专属服务IP

算力宝典，第一章、算力中心从入门到精通【概述篇】
算力宝典，第二章算力中心从入门到精通【模式篇】

欢迎加入社群↓

阅读原文

跳转微信打开

1.1 算力概念

1.2 算力分类

1.3 算力计算方式

2.1 一般遵循的几个原则

2.2 典型技术架构

2.2.1 计算层

2.2.3 存储层

第三章：智算中心算力、网络和存储产品

3.1 算力产品 (AI 服务器)

3.2 网络产品

4.1.1NVIDIA GPU :全球老大

4.1.2Google TPU :创新标杆引领

4.1.3AMD Instinct GPU :黄埔军校，国内很多AI创业公司的老师

4.2.1华为昇腾 (Ascend) :全村的系统

4.2.2寒武纪 (Cambricon) :上市大佬

第八章：智算中心运营方案

算力宝典，第二章算力中心从入门到精通【模式篇】

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

1.1 算力概念

1.2 算力分类

1.3 算力计算方式

2.1 一般遵循的几个原则

2.2 典型技术架构

2.2.1 计算层

2.2.3 存储层

第三章：智算中心算力、网络和存储产品

3.1 算力产品 (AI 服务器)

3.2 网络产品

4.1.1NVIDIA GPU :全球老大

4.1.2Google TPU :创新标杆引领

4.1.3AMD Instinct GPU :黄埔军校，国内很多AI创业公司的老师

4.2.1华为 昇腾 (Ascend) :全村的系统

4.2.2寒武纪 (Cambricon) :上市大佬

第八章：智算中心运营方案

算力宝典，第二章 算力中心从入门到精通【模式篇】

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

4.2.1华为昇腾 (Ascend) :全村的系统

算力宝典，第二章算力中心从入门到精通【模式篇】