一台刚刚好，DeepSeek满血开跑！吞吐飙升60%，捅破H20天花板！

特大号 03月22日 19:46

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

超聚变FusionOne AI大模型一体机通过软硬协同优化，成功突破了H20运行DeepSeek满血大模型的性能瓶颈。单台设备即可流畅运行DeepSeek R1满血版，支持1024并发访问，总吞吐量达6335 token/s，性能领先业内方案60%。该一体机在显存利用率、数据并行、推理任务调度等方面进行了深度优化，显著降低了DeepSeek-R1模型的部署门槛，使得更多企业和科研机构能够轻松应用AI大模型。未来，超聚变将持续投入研发，推动AI算力优化与应用拓展。

🚀 **性能突破：** 超聚变FusionOne AI大模型一体机在H20硬件上运行DeepSeek R1满血版大模型，总吞吐量高达6335 token/s，性能领先业内H20方案60%，支持1024并发访问。

💡 **显存优化：** 通过内核优化，显存空间利用率提升20%，KV cache池使用率提升至93%，保障模型参数和过程数据高效运行。

⚙️ **并行计算：** 采用DP数据并行、TP模型张量并行技术，调度多卡分布式并行计算，提升token产生吞吐效率50%。

⏱️ **任务调度：** 通过长文本切片和混合调度Decode任务并行运行，降低了TTFT（Time to First Token）和 TPOT（Time per Output Token）。

🏢 **应用落地：** 降低了DeepSeek-R1 671B 模型的部署门槛，使得单台FusionOne AI大模型一体机即可支撑数千人规模企业使用。

2025-03-21 19:27 北京

近日，超聚变FusionOne AI大模型一体机通过软硬协同，深度调优，成功打破了H20运行DeepSeek满血大模型的性能天花板。

仅1台就能跑满血版

在模拟问题对话场景（上下文序列长度1K/1K）下，仅需1台FusionServer G8600搭载8张H20硬件，即可流畅运行DeepSeek R1满血版，支持1024并发访问数，总吞吐量高达6335 token/s，性能领先业内H20方案60%。

仅1台就能支撑数千人规模企业

其中，TPOT（Time per Output Token）时延相比业内H20方案减少40%，单台FusionOne AI大模型一体机即可支撑数千人规模企业使用，将单机H20运行大模型的性能推向新高度。

软硬协同调优

打破 H20 性能天花板

算力释放，显存最优分配：

通过内核优化，提升显存空间利用率20%，KV cache池使用率提升至93%，保障模型参数、过程KV高效运行

数据、模型并行调度：

通过DP数据并行、TP模型张量并行技术，调度多卡分布式并行计算，提升token产生的吞吐效率50%，有效提升计算效能

推理任务切片混合调度：

Prefill阶段（首token输出阶段任务）长文本切片, 加速初始内容生成速度，同时在每个切片计算过程中，混合调度Decode任务（后续token迭代生成任务）并行运行, 无需串行等待，提高资源利用率，降低 TTFT（Time to First Token）和 TPOT（Time per Output Token ）。

AI大模型一体机以极致成本、性能跃升的双重突破，大幅降低DeepSeek-R1 671B 模型的部署门槛，以普惠形态让更多企业和科研机构能够轻松应用。

未来，超聚变将持续加大研发投入，聚焦AI算力优化与应用拓展，加速企业AI应用落地。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签