原创 小黑羊 2025-05-29 10:53 北京
.
这是目前为止,我看到过的国内厂商8卡DeepSeek一体机,创造的最高纪录。
自从年初DeepSeek爆火,各大智算厂商就在不断地挑战:如何用一体机跑出满血版的最佳效果?
于是乎,半年来满血一体机的吞吐量纪录不断被刷新,从最初的2000多,到5000、6000、8000,再到10000多……
如今,这数据被干到了夸张的12000+!大家对这个事这么上头,究竟是为啥?一体机真有这么大需求吗?
其实,这件事的核心在于,算力需求的基本盘,变了。
之前,百模大战,主要需求是大模型预训练,强调算力的高MFU、高可用。
现在,大模型应用落地,需求开始多样化,训练、训推、推理,不仅强调高MFU、高可用,还要高吞吐、低延迟。
而且,随着各种大模型项目在千行百业落地,实际部署、优化涉及到五花八门的情况。
没点真功夫,很难满足需求。
所以,表面上智算厂商们狂炫一体机,铆足劲拉吞吐,实际上,是把它作为自己练功的“木人桩”。
有了这个业界都买账的“活靶子“,通过持续工程优化,把实战能力练到极致,就可以去适配更复杂的行业落地场景。
就拿创造”12000+Tokens“吞吐纪录的联想来说,在这背后,联想练就的大模型落地能力,早已远远超过了一体机范畴。
最近,在「2025联想创新科技大会」上,在披露这项纪录的同时,联想也揭秘了背后的黑科技——联想万全异构智算平台3.0。
这不是我第一次关注到「万全异构智算平台」,想了解其基础能力的朋友,可以以翻看这篇,五大基础能力介绍↓
这一次,我来划划新重点:“万全3.0”带来的四大全新技术——
这套“加速秘笈",包括了针对MLA、混合精度量化、分布式并行等策略的一系列二次优化,提升推理吞吐量、降低时延。
在这套算法集的加持之下,大模型推理性能可以提升5-10倍,与业界最优社区方案相比,保持20%+优势。
所以就有了这样的炸裂成绩:单机8卡服务器,支持190路用户同时使用满血版DeepSeek。
这个优化,贯穿了AI开发框架、计算路径、算子、驱动层以及各种异构加速卡。
采用算子融合、算子替代、路径优化手段,大幅简化计算过程。
就这样,通过构建计算图过程中的优化,一顿操作猛如虎,训推开销各降15%!
搞过训练和推理的老司机都知道,节点故障是”家常便饭“,而且不可避免。
尤其在GPU异构、集群场景复杂的情况下,故障率会更高,一旦停摆,训练进度受影响,推理体验打折扣。
不用慌,现在可以“提前治未病”,还有“速效救芯丸”,让AI集群自己预测故障、发现故障、诊断和修复故障。
联想通过多年训推实践积累起来的训推故障特征库,用AI模型来完成预测和诊断,自动化排除故障点,并通过多机缓存极速读取和恢复训推环境。
DeepSeek爆火,让MoE这种专家混合模型流行度飙升,最新发布的Qwen3也提供了相应的MoE模型(235B)。
与传统稠密模型比,MoE模型通过激活少量专家来降低推理算力开销,但模型的并行通信复杂度和通信量也随之大大增加了。
虽然DeepSeek官方给出了一套专家并行的优化指南,让计算和通信叠加,提升效率。
但这套方案受限于特定N卡和特定集群架构,并不完全适用于千差万别的行业场景。
“万全异构智算平台”的专家并行通信算法,是一种架构自适应的细粒度计算、通信协同优化技术。
目标就是希望适配不同GPU/加速卡、网络环境、集群规模等等。
而且,联想也把这种通信优化,作为一种服务来交付,为不同的行业场景提供定制化调优。
无论是DeepSeek还是Qwen3,无论是N卡还是A卡、国产卡,无论RDMA网还是IB网,无论小集群还是巨无霸,都能跑到极致。
你没想到吧,高吞吐的满血一体机,只是热身秀肌肉,这背后的「联想万全异构智算平台」,才是联想苦练的真功夫。
比如,在算力层面,联想针对数据处理、AI训练、AI推理对算力需求的差异,分别推出了不同的服务器家族,主打一个“拳拳到肉、切中要害”。
在存储力层面,重磅发布联想凌拓全新存储产品家族,以及具备本地自研、自有知识产权、自主可控三大特征的联想存储新品牌——联想问天。
在运载力层面,发布高密度400G交换机联想问天NE8770-64QC,专为AI训推场景深度优化。
至此,存算网的“buff”全部叠齐,万全异构智算3.0的“内功”炼成。
“大模型2.0时代”的联想,战力彻底拉满!