index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
2025年一季度后,算力需求变化,老丘受影响。他参加在庆阳的会议,了解到联想专家分享的优化智算集群和一体机的方法,以满足新需求,老丘找到破局之道。
国内大模型发展,训练需求变化,老丘生意受影响
庆阳是国家‘东数西算’工程枢纽,燧弘华创智算中心有借鉴意义
联想专家分享优化智算集群和一体机的五大方法
老丘找到破局之道,打算按联想方案优化自己的算力
原创 小黑羊 2025-04-09 10:56 山东
.

作为算力圈的“老黄牛”,过去的一年,老丘生意可谓风生水起。
可是转过年来,老丘敏锐的感觉到:有点不对劲,生意明显少多了。过去两年,国内各种大模型百花齐放,训练需求激增,大巨头、小独角、传统IT大厂,甚至行业大甲方们,都想自己训练个模型出出风头。可是,自从DeepSeek新春炸场以来,风云突变,人们发现这市场上根本不需要那么多大模型,有两三个好用的就够了。于是乎,很多大规模训练的需求,一夜之间退潮了,取而代之的大量的后训练和推理需求。老丘很不幸成为这波退潮的“受害者”,他之前手里的那些智算中心,当初建设的初衷都是打谱做预训练用的。现在客户上来就要推理,尤其还要看跑DeepSeek的效果,纯搞训练不香了。每次被客户拷问,老丘都无言以对,眼看Q1就要结束了,也没找到破局之道。会议的举办地设在甘肃庆阳,瞬间就吊起了老丘的胃口。
下了车,老丘看到那一排排的数据中心机房和墙上那些熟悉的LOGO,就兴奋起来了。庆阳今非昔比,这里可是国家“东数西算”工程的八大枢纽节点之一。作为“中国算谷”,庆阳的智算中心是如何应对DeepSeek带来的新需求?老丘觉的这肯定很值得借鉴。抵达的第一站,老丘要去参观的是燧弘华创在庆阳枢纽的绿色智算中心。要知道,燧弘华创是首家入驻庆阳的数据中心企业,目前已经投产2万P高端算力,而且全部售罄。参观过程中,老丘了解到,在智算中心的落地过程中,燧弘华创在技术研发层面深耕细作。并与联想协同创新,基于万全异构智算平台,输出融合、稳定和高效的算力。最终,大家的目光都被数据中心前厅的一组展示设备吸引,老丘也走过去围观。原来这里展示的联想为燧弘华创定制的,搭载了燧原国产算力卡的异构智算服务器。以前开会,老丘就是捧个场,一落座就犯困。可这次,老丘是全程竖着耳朵从头听到尾,而且频频拍照。①如何优化智算集群,满足类似DeepSeek这样“泼天”的推理需求。②如何优化智算一体机,满足DeepSeek等大模型本地化部署的需求。▌第一,通过「联想万全异构智算平台」提升千卡、万卡集群的可管理性和可伸缩性。从而更加灵活地调度算力资源,满足模型后训练、推理等业务对算力的新需求:突发性强、零散度高、弹性要求高。同时,万全异构智算平台支持丰富的GPU、AI加速卡生态,通过“异构”,可引入不同精度的算力,满足当下和未来推理场景对低精度算力的要求。而且,万全异构智算平台还支持智算、高性能计算异构,从而让不同精度的算力都能最大化使用。在现场,联想专家还实操演示了燧弘华创基于万全异构智算平台定制的管理平台,142节点,1136张卡,纳管、监控、调度,一气呵成。老丘看罢直呼内行,预训练时代大家为了秀肌肉,总喜欢整什么万卡、十万卡,现在到了推理时代,把千卡优化好,效率最大化才是王道。其核心的原理就是:不是所有权重和激活都用同样的精度,而是根据重要性使用不同的精度(FP16/BF16/FP8/INT8/INT4等)。联想可以根据不同模型的特点、智算中心算力卡的精度支持情况,为运营者制定一套推理效率最大化的量化策略。简单讲就是在关键地方(离群点)保留高精度,在其他地方用低精度,配合图结构优化和自动编译工具,提升推理速度、减少算力消耗。联想给出了实测结果,经过混合精度量化的DeepSeek 32B蒸馏模型,相比原模型吞吐提升近100%,端到端延迟降低50%,且模型性能近乎无损。▌第三,通过「通信计算重叠」和「访存优化」,来提升算力利用率(MFU)。通信计算重叠,就是在计算单元(CPU/GPU)执行当前任务的同时,后台异步传输下一阶段需要的数据(模型参数、中间结果等),让通信和计算时间部分或完全重叠。从而充分利用硬件并行能力,隐藏通信延迟,提升系统整体吞吐。访存优化,尤其针对长序列场景,通过分块计算和算子融合,就近缓存数据,并采用按需重计算,显著减少显存开销,降低通信延迟。好比把大任务拆成小块干,把常用的东西放手边,不重要的结果就不存,等需要时再算,这样能省很多空间,还能干活更快更流畅。▌第四,通过「内核态虚拟化」,精细化调度算力,并严格隔离故障。联想万全异构智算平台,还提供了一项独门绝技:内核态虚拟化。可实现显存1MB粒度、算力1%精度隔离,虚拟化性能损失低于3%,并具备严格的故障隔离性。这波操作,让异构智算平台可以更细粒度地调度算力,满足后DeepSeek时代大模型后训练和推理对算力小快灵的需求。比如在会议现场,老丘就亲眼目睹了联想专家用单GPU运行100个模型任务,效率跑满,灵活性超强。▌第五,通过极致优化,提升DeepSeek一体机吞吐,满足本地化部署需求。联想专家现场演示,单机8卡运行满血版DeepSeek R1,3000并发下,极限吞吐高达8000+ TPS。更让老丘佩服的一点在于,联想的一体机测试,不仅限于展示并发和极限吞吐,还提供了与真实业务场景相匹配的模拟测试。除了最通用的聊天会话场景,还包括了代码生成、文档翻译、文档解析、知识库应用等等,每种场景都给出了明确的指标。就这样,不管是智算集群优化用于大规模运营,还是一体机优化用于本地化部署,联想都拿出了最优解。跟着联想走,跟着万全异构智算的方案走,把自己手里的算力重新优化,适配推理和后训练新需求……
阅读原文
跳转微信打开