本文介绍了基于昇腾910C AI加速卡与CloudMatrix超节点推理架构组合,在运行DeepSeek-R1大模型时,展现出媲美NVIDIA H100的卓越性能。昇腾910C凭借其领先的Da Vinci架构、高计算密度和优化的张量计算单元,为大模型推理提供硬件基础。CloudMatrix超节点推理架构通过高速互联、分布式计算优化等技术,提升了集群的并行处理效率和整体吞吐量,实测性能在Token生成速度、查询延迟和并发处理能力上与H100相当。文章还提及了910C的特点、出货厂商以及支持国产化的重要性。
🚀 昇腾910C采用chiplet双die封装,搭配128GB HBM2e内存,性能可媲美H100。
💡 CloudMatrix超节点推理架构通过高速互联、分布式计算优化等技术,将多张910C的潜力发挥到极致,提升集群并行处理效率。
✅ 在DeepSeek-R1大模型测试中,昇腾910C+CloudMatrix解决方案在关键性能指标上达到与NVIDIA H100单卡或同等集群规模相当的水平。
🏢 910C主要出货厂商包括华鲲和超聚变,建议有资源的朋友提前订货。
📢 文章强调了支持国产化的重要性,并指出了H20开闸倾销可能带来的负面影响。
原创 算力百科 J 2025-04-12 06:00 湖南
910C 128GB hbm2e 16GB*8,采用chiplet 双 die封装 大EP方案,媲美H100

910C 128GB hbm2e 16GB*8,采用chiplet 双 die封装。 大EP方案,专家并行的前提就是集群最够大,也就说小集群没意义,宣布的节点是384个节点,那些小集群的看官,别异想天开,想在自己小集群 部署,没用! 384个节点,单用户 20 TPS 水平前提下,单卡 Decode 吞吐突破 1920 Tokens/s,可比肩 H100 部署性能,H100是22年上市,差距缩小到3年!!! 910C之前的用户大概率是很难享受到最新的大EP技术红利,910B的11种型如下: 随着 DeepSeek-R1 等前沿大语言模型的不断涌现,如何高效、经济地进行模型推理部署,已成为业界关注的核心挑战。今天,我们激动地宣布,基于 昇腾910C AI 加速卡 与 CloudMatrix 超节点推理架构 的组合,在运行 DeepSeek-R1 大模型时,展现出了足以媲美业界顶尖 NVIDIA H100 的卓越性能!
强劲算力核心 - 910C:
910C 凭借其领先的 Da Vinci 架构、高计算密度、优化的张量计算单元,为复杂的大模型推理提供了坚实的硬件基础。高内存带宽、低功耗特性进一步确保了大规模推理任务的流畅运行。
集群优化引擎 - CloudMatrix 超节点推理:
这不仅仅是硬件的堆叠。CloudMatrix 超节点推理架构通过高速互联技术、分布式计算优化框架、智能任务调度算法、集合通信优化库,将多张 910C 的潜力极致发挥。它实现了卡间高效协同,有效降低了通信延迟,大幅提升了整个集群的并行处理效率和整体吞吐量。
实测性能 - DeepSeek-R1 媲美 H100:
关键突破: 在针对 DeepSeek-R1 模型的严格基准测试中,我们的 910C + CloudMatrix 超节点解决方案,在Token 生成速度 (Tokens/s)、查询延迟 (Latency)、并发处理能力 (QPS) 等关键性能指标上,达到了与 NVIDIA H100 单卡或同等集群规模相媲美的水平。
英伟达NVlink
华为 HCCS
910C 主要出货厂商:华鲲和超聚变,稀缺型号,有资源朋友,可以去提前订货啦,订到即赚到! A-X型号:x86CPU;A-A型号:ARM CPU;
阅读原文
跳转微信打开