我是DeepSeek一体机，请攻击我最弱的地方！

特大号 05月14日 18:00

我是DeepSeek一体机，请攻击我最弱的地方！

文章讲述了DeepSeek一体机在面对市场挑战后，通过更换“昆仑芯P800”实现性能飞跃的故事。从单机到集群，再到昆仑芯超节点的演变，详细介绍了其在不同应用场景下的解决方案，以及如何通过百度百舸·AI异构计算平台的协同，实现大模型训推的优化和性能提升，最终成为ToB产品圈的“网红”。

🚀 DeepSeek一体机通过更换昆仑芯P800，实现了从“战五渣”到“战神”的转变，性能大幅提升，支持满血版DeepSeek V3/R1，推理吞吐量可达2400+ Tokens每秒，并支持训推一体，方便模型微调。

🏢 DeepSeek一体机提供多种扩展方案，满足不同规模企业的需求：从单机八卡，到多机负载均衡，再到引入RDMA网络构建并行推理集群，以及采用PD分离模式扩展成更大集群，以适应大规模企业级应用。

🤝 DeepSeek一体机通过百度百舸·AI异构计算平台，实现超大规模集群的构建。百度百舸平台提供高性能网络、深度优化的PD分离部署方案、多芯异构支持和弹性调度等能力，提升集群的整体性能和效率。

💡 昆仑芯超节点的发布是DeepSeek一体机的又一次升级。昆仑芯超节点具有高密机柜、高带宽互联等特性，单节点训练性能提升10倍，单卡推理性能提升13倍，实现了“以一当百”的效果。

原创小黑羊 2025-04-25 12:20 北京

.

我，是一台「DeepSeek一体机」，开年以来，我可是卖疯了。

无论是甲方还是乙方，都超级喜欢我，大家都把我视为靠谱的DeepSeek落地方案。

2025年ToB产品圈第一网红，舍我其谁？

可是，人红是非多，不少人羡慕嫉妒恨，对我进行各种攻击。

但我，气势不会输。来啊，放马过来啊！

万万没想到，这波攻击者甚是凶猛，一上来就放大招。

他们把我前期实战中暴露出来的弱点，都研究透了。

完了，这些家伙们，看起来很懂行啊…

个个不讲武德，招招戳我要害，这是要把我虐成“战五渣”。

啊啊啊啊啊，我有点扛不住了，难道真要被“干黄”了吗？

确实，对于一体机来讲，当客户回归理性，以上攻击点都无法回避。

我如何绝地反击、王者归来？

“敌人”这么凶，我还有机会吗？当然有！

有人给我换了“芯”，换“芯”后，我竟然无敌了！！！

从此，无论面对青铜段位还是王者段位的挑战，我全部宛如“开挂”，所向披靡。

这么说吧，我可以根据客户的业务发展，逐步扩展，共同成长。

1、青铜段位，相当于企业入手大模型的起步阶段。

新手上路，选我这样单台一体机，单机八卡跑满血DeepSeek，开箱即用，超高性价比。

而有些同行，可能需要两台联手才能扛得动这样的大活儿。

2、白银段位，此时企业使用大模型已经过了新手期，开始尝试更多的场景了。

一台不够用怎么办？可以再添置几台，多台负载均衡，各司其职，满足不同业务需求。（每台都独立运行满血大模型，分别处理不同业务）

3、黄金段位，到了这个段位的企业，已经渐入佳境，他们希望更高效率的使用大模型。

莫慌，我还有妙招：引入RDMA网络，多台一体机可以瞬间变阵，组成并行推理集群，MoE专家并行，模型吞吐量飙升。

4、钻石段位，此时，企业已经是大模型深度应用的老司机了，他们可能要挖掘大模型的所有潜力。

没问题，我可以继续变阵，扩展成更大集群，并采用PD分离模式，以更高的性能满足大规模企业级应用。

接下来，我就要挑战“王者”段位了~

不过，走到这一步，大家可能就犯嘀咕：以前这货“战五渣”，为啥现在轻松“五连杀”？

我如何脱胎换骨、成为战神？

嘿嘿，不装了，其实我用了昆仑芯P800。

SO，我现在是内置8张P800加速卡的DeepSeek一体机。

给大家完整介绍下我的战斗指标↓

目前，单机八卡的我，就可以支持满血版DeepSeek V3/R1，推理吞吐量可以达到2400+ Tokens每秒。

而且，跟市面上绝大多数一体机不同，我不光支持推理，还支持训练。

我是真正的「训推一体」，给模型做个后训练或者微调对齐，让它在落地场景更加游刃有余。

同时，我还提供CUDA兼容技术，让原来依赖于N家CUDA的模型，可以轻松迁移过来。

在单机的战斗力方面，我正在修炼“16卡心法”，出关之日，单机性能又可以大幅攀升。

在组团“打群架”方面，我就更厉害了。

单一集群可以支持30000卡，所以，你丝毫不用担心扩展性。

老司机都懂的，要想攀上王者巅峰，不能光靠单打独斗，必须要团队配合。

接下来，我就给大家展示下，我是如何通过“团战”，拿下王者局的。

我如何组建超大规模集群？

想干更大业务，就要组更大集群，大家完全不需要担心我的扩展能力（单集群30000卡）。

但是真正打起团战来，光靠人多不行，还需要看“配合”和“微操”，更要看临阵“指挥”。

此时，我会请来一位团队指挥官：百度百舸·AI异构计算平台。

这位老铁身经百战，最擅长指挥“大规模兵团作战”，手段那是相当高明。

第一，看行军（组网）：百度百舸的高性能网络（HPN）延迟低至5μs，而且全网无阻塞。

这就使得参与团战的兄弟们配合更加默契，彼此“喊话/补刀/Gunk”，绝不掉链子。

在低延迟基础上，百舸还提供了机内机间互联一体化通信调度，减少跨节点通信流量，并支持对训推流量分级管理，确保推理服务低延迟。

第二，看布阵（部署）：百度百舸提供深度优化的「PD分离」部署方案。

所谓PD分离，就是将大模型推理的Prefill阶段和Decode阶段，分别交给不同的节点或算力卡来处理。

因为P阶段是并行处理，D阶段是串行处理，对算力的要求不同，掺和在一起跑影响效率。

百舸支持PD任意配比，推理团战时，我和战友们根据需求灵活分工，有的兄弟领“P活”，有的兄弟领“D活”，PD搭配，干活不累。

自动分好任务后，百舸通过细粒度PD调度、冗余专家编排等深度优化手段，让我们整个集群的“团战”实力完全发挥出来，人人都是“DPS”！

来看看PD分离模式下，我们的团战输出效果吧——

满血版DeepSeek推理，单Token生成时长（TPOT）缩短了40%，整体吞吐（TPS）提升20倍以上。

也正是这套方案，支持了DeepSeek在百度智能云千帆平台上大规模上线。

第三，看领导力（多芯异构）：不仅支持自家昆仑芯，还支持国内外各种主流算力卡、GPU。

每个企业实战场景的「王者峡谷」都是非常复杂的，基础设施多种多样，存在不同出身的算力“英雄”（昆仑芯、英伟达、昇腾等）。

没关系，英雄莫问出处，百度百舸指挥官可以把他们都纳入麾下，统一管理，一云多芯，异构训推。

第四，看“配合”和“微操”（弹性调度，训推混布）：让算力资源的使用更加极致，效率最大化。

这一步，百度百舸指挥官有几项能力↓

首先通过GPU虚拟化，细粒度切分算力，来匹配小模型的算力要求（相当于微操补刀小兵），避免浪费。

接下来，百舸可以指挥同一个集群里兄弟，一部分打“推理仗”，另一部分打“训练仗”，大家互不干扰。

这种训推混布，能让单一集群适配更灵活的业务场景。

最后，通过潮汐算力、资源超发等调度手段，实现白天推理、晚上训练，高优任务抢占资源等，动态满足不同部门、不同业务对算力的弹性需求。

总之吧，让每个战斗单位都卷起来，团队战斗力才能最大化。

就这样，百度百舸指挥调度得当，算力战队小伙伴们人人奋勇、个个争先，拿下王者局，自然不在话下。

不过，这还不算完，我还藏了一个大招↓

在今天举办的「Create2025百度AI开发者大会」上，我的超级变身来了，这就是昆仑芯超节点。

昆仑芯超节点专打“高端普惠局”，高密机柜内32/64卡机内互联，卡间互联带宽是原来普通一体机的8倍，单节点训练性能提升10倍，单卡推理性能提升13倍！

在推理上，一个机柜能顶过去100台机器，做到“以一当百”。

变身“超节点”的我，堪称国产算力神装！不仅支持私有化交付，还不挑战场，风冷机房也能部署。

来，come on baby，让我们来一场酣畅淋漓的大模型训推大战吧！

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek一体机昆仑芯P800 大模型百度百舸

相关文章

回顾我的 prompt 能力从小白到熟练的一些重要节点：防杠叠甲： 1. 仅代表我自己的认知，没啥权威性。 2. 认为提示词那么简单至于搞那么复杂么的朋友，你对 3. ...

SAP大中华区总裁黄陈宏：SAP不做大模型

李开复：现在对中国大模型创业公司盖棺定论为时尚早，ofo式的补贴逻辑不再适用于AI 2.0

寒武纪：新一代智能处理器微架构和指令集正在研发中

阿里管理层：绝大部分大模型公司追求的方向一致，长期发展方向是图文视频音频融合大模型

大模型一体机是在“卖盒子”吗？

百度文心大模型日处理Tokens文本已达2490亿

万联证券：国产人形机器人行业发展进程不断加速

百度、阿里、腾讯Q1财报解读：保住基本面才能谈AI

腾讯吴运声谈大模型“价格战”：更关注能力提升