特大号 05月29日 19:32
吞吐量超12000tokens的DeepSeek满血一体机,究竟有何意义?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章介绍了联想在智算领域的技术突破,特别是其万全异构智算平台3.0。该平台通过优化算法、编译、故障预测与自愈系统以及专家并行通信算法,显著提升了大模型的推理性能和效率。联想通过持续工程优化,致力于满足大模型应用落地多样化的需求,并推出了针对数据处理、AI训练、AI推理的服务器家族,以及存储和网络方面的创新产品,构建了完整的算力、存储和网络解决方案,从而加速大模型在各行业的应用。

🚀 联想万全异构智算平台3.0通过AI推理加速算法集,针对MLA、混合精度量化、分布式并行等策略进行优化,使得大模型推理性能提升5-10倍,并保持20%以上的优势,从而支持单机8卡服务器同时满足190路用户使用满血版DeepSeek的需求。

⚙️ 平台内置AI编译优化器,通过算子融合、算子替代、路径优化等手段简化计算过程,降低训推开销各15%。这有助于提升计算效率,降低资源消耗。

🛡️ 针对训推过程中节点故障问题,平台配备了故障预测与自愈系统,利用AI模型预测、诊断和修复故障,实现百卡故障秒级恢复、千卡分钟级恢复、万卡十分钟级以内恢复,从而显著提升训练效率和推理体验。

📡 为了优化MoE模型在不同硬件和网络环境下的性能,平台采用了架构自适应的专家并行通信算法,该算法能够适配不同GPU/加速卡、网络环境、集群规模,为不同行业场景提供定制化调优,确保DeepSeek、Qwen3等模型在各种配置下都能高效运行。

原创 小黑羊 2025-05-29 10:53 北京

.

吞吐量超过12000tokens/秒,满血版DeepSeek!

这是目前为止,我看到过的国内厂商8卡DeepSeek一体机,创造的最高纪录。

自从年初DeepSeek爆火,各大智算厂商就在不断地挑战:如何用一体机跑出满血版的最佳效果?

于是乎,半年来满血一体机的吞吐量纪录不断被刷新,从最初的2000多,到5000、6000、8000,再到10000多……

如今,这数据被干到了夸张的12000+!

大家对这个事这么上头,究竟是为啥?一体机真有这么大需求吗?

其实,这件事的核心在于,算力需求的基本盘,变了。

之前,百模大战,主要需求是大模型预训练,强调算力的高MFU、高可用。

现在,大模型应用落地,需求开始多样化,训练、训推、推理,不仅强调高MFU、高可用,还要高吞吐、低延迟。

而且,随着各种大模型项目在千行百业落地,实际部署、优化涉及到五花八门的情况。

没点真功夫,很难满足需求。

所以,表面上智算厂商们狂炫一体机,铆足劲拉吞吐,实际上,是把它作为自己练功的“木人桩”。

有了这个业界都买账的“活靶子“,通过持续工程优化,把实战能力练到极致,就可以去适配更复杂的行业落地场景。

就拿创造”12000+Tokens“吞吐纪录的联想来说,在这背后,联想练就的大模型落地能力,早已远远超过了一体机范畴。

最近,在「2025联想创新科技大会」上,在披露这项纪录的同时,联想也揭秘了背后的黑科技——联想万全异构智算平台3.0

这不是我第一次关注到「万全异构智算平台」,想了解其基础能力的朋友,可以以翻看这篇,五大基础能力介绍↓

比智算更猛的,是异构智算!

这一次,我来划划新重点:“万全3.0”带来的四大全新技术——

1、AI推理加速算法集

这套“加速秘笈",包括了针对MLA、混合精度量化、分布式并行等策略的一系列二次优化,提升推理吞吐量、降低时延。

在这套算法集的加持之下,大模型推理性能可以提升5-10倍,与业界最优社区方案相比,保持20%+优势。

所以就有了这样的炸裂成绩:单机8卡服务器,支持190路用户同时使用满血版DeepSeek。

2、AI编译优化器

这个优化,贯穿了AI开发框架、计算路径、算子、驱动层以及各种异构加速卡。

采用算子融合、算子替代、路径优化手段,大幅简化计算过程。

就这样,通过构建计算图过程中的优化,一顿操作猛如虎,训推开销各降15%!

3、AI训推慢节点故障预测与自愈系统

搞过训练和推理的老司机都知道,节点故障是”家常便饭“,而且不可避免。

尤其在GPU异构、集群场景复杂的情况下,故障率会更高,一旦停摆,训练进度受影响,推理体验打折扣。

不用慌,现在可以“提前治未病”,还有“速效救芯丸”,让AI集群自己预测故障、发现故障、诊断和修复故障。

联想通过多年训推实践积累起来的训推故障特征库,用AI模型来完成预测和诊断,自动化排除故障点,并通过多机缓存极速读取和恢复训推环境。

最终,在实战场景,故障自愈时间可以做到百卡故障秒级恢复、千卡分钟级恢复、万卡十分钟级以内恢复,大大提升训练效率和推理体验。

4、专家并行通信算法

DeepSeek爆火,让MoE这种专家混合模型流行度飙升,最新发布的Qwen3也提供了相应的MoE模型(235B)。

与传统稠密模型比,MoE模型通过激活少量专家来降低推理算力开销,但模型的并行通信复杂度和通信量也随之大大增加了。

虽然DeepSeek官方给出了一套专家并行的优化指南,让计算和通信叠加,提升效率。

但这套方案受限于特定N卡和特定集群架构,并不完全适用于千差万别的行业场景。

“万全异构智算平台”的专家并行通信算法,是一种架构自适应的细粒度计算、通信协同优化技术。

目标就是希望适配不同GPU/加速卡、网络环境、集群规模等等。

而且,联想也把这种通信优化,作为一种服务来交付,为不同的行业场景提供定制化调优。

无论是DeepSeek还是Qwen3,无论是N卡还是A卡、国产卡,无论RDMA网还是IB网,无论小集群还是巨无霸,都能跑到极致。

你没想到吧,高吞吐的满血一体机,只是热身秀肌肉,这背后的「联想万全异构智算平台」,才是联想苦练的真功夫。

当然,为了满足“后训练时代”的新需求,联想在「Tech World 2025」上还放出了一系列大招。

比如,在算力层面,联想针对数据处理、AI训练、AI推理对算力需求的差异,分别推出了不同的服务器家族,主打一个“拳拳到肉、切中要害”。

存储力层面,重磅发布联想凌拓全新存储产品家族,以及具备本地自研、自有知识产权、自主可控三大特征的联想存储新品牌——联想问天。

运载力层面,发布高密度400G交换机联想问天NE8770-64QC,专为AI训推场景深度优化。

至此,存算网的“buff”全部叠齐,万全异构智算3.0的“内功”炼成。

“大模型2.0时代”的联想,战力彻底拉满!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

联想 万全异构智算平台 大模型 AI推理
相关文章