原创算力百科 J 2025-04-12 06:00 湖南

910C 128GB hbm2e 16GB*8，采用chiplet 双 die封装大EP方案，媲美H100

910C 128GB hbm2e 16GB*8，采用chiplet 双 die封装。

大EP方案，专家并行的前提就是集群最够大，也就说小集群没意义，宣布的节点是384个节点，那些小集群的看官，别异想天开，想在自己小集群部署，没用！

384个节点，单用户 20 TPS 水平前提下，单卡 Decode 吞吐突破 1920 Tokens/s，可比肩 H100 部署性能，H100是22年上市，差距缩小到3年！！！

910C之前的用户大概率是很难享受到最新的大EP技术红利，910B的11种型如下：

随着 DeepSeek-R1 等前沿大语言模型的不断涌现，如何高效、经济地进行模型推理部署，已成为业界关注的核心挑战。今天，我们激动地宣布，基于昇腾910C AI 加速卡 与 CloudMatrix 超节点推理架构 的组合，在运行 DeepSeek-R1 大模型时，展现出了足以媲美业界顶尖 NVIDIA H100 的卓越性能！

强劲算力核心 - 910C：

910C 凭借其领先的 Da Vinci 架构、高计算密度、优化的张量计算单元，为复杂的大模型推理提供了坚实的硬件基础。高内存带宽、低功耗特性进一步确保了大规模推理任务的流畅运行。

集群优化引擎 - CloudMatrix 超节点推理：

这不仅仅是硬件的堆叠。CloudMatrix 超节点推理架构通过高速互联技术、分布式计算优化框架、智能任务调度算法、集合通信优化库，将多张 910C 的潜力极致发挥。它实现了卡间高效协同，有效降低了通信延迟，大幅提升了整个集群的并行处理效率和整体吞吐量。

实测性能 - DeepSeek-R1 媲美 H100：

关键突破：

在针对 DeepSeek-R1 模型的严格基准测试中，我们的 910C + CloudMatrix 超节点解决方案，在Token 生成速度 (Tokens/s)、查询延迟 (Latency)、并发处理能力 (QPS) 等关键性能指标上，达到了与 NVIDIA H100 单卡或同等集群规模相媲美的水平。

英伟达NVlink