index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
AMD 在 Advancing AI 2025 大会上发布了 MI350 系列芯片,包括 MI350X 和 MI355X,旨在与英伟达竞争。文章从性能、内存、成本、生态和路线图五个维度,分析了 MI350 系列的核心优势。MI355X 在推理性能上表现出色,尤其是在低精度推理场景中。内存容量和带宽大幅提升,成本和能耗方面也更具竞争力。此外,AMD 强调开源生态,并展示了其在路线图和机架方面的布局,试图挑战英伟达的领先地位。
🚀 性能方面:MI355X 在 vLLM 和 SGLang 跑分中,对 DeepSeek R1 和 Llama 3 70B 推理吞吐量比 B200 高约 20-30%。在预训练 Llama 3 70B(FP8)时,MI355X 性能是 MI300X 的 2.5-3.5 倍,与 B200/GB200 相当。
💾 内存与带宽:MI350 系列内存容量增加了 60%,内存带宽达到 8 TB/s。MI350X 采用 HBM3E 288 GB,单卡即可支持 520B 模型。卡间互联 IF Link 达到 1075 GB/s,超过 NVL4 的 900 GB/s,对超大模型推理有显著优势。
💰 成本与能耗:AMD 宣称“每刀 token 数量”比 B200 多 40%,原因在于 GPU 单卡价格更低,且 288 GB HBM3E 大显存可节约分片/分卡开销。MI350X 的 Perf/W 相比 MI300X 提升了 30%,以 1000-1400W 的功耗,达到与英伟达 GB200 2x1150W 同量级的推理性能。
🌱 生态系统:AMD 采用开源的 ROCm,ROCm 7 推理性能相对 ROCm 6 提升 3.5 倍,训练提速 3 倍。Day-0 支持 Llama4、DeepSeek、Grok、Qwen 等主流模型。开源框架 vLLM 和 SGLang 与 AMD 同步联调,FP8 推理方面,AMD 领先于英伟达 TensorRT-LLM。
🗓️ 路线图与机架:AMD 计划一年一代发布 MI 系列产品,MI400 已经在路上。Helios 机架采用 UALink + Ultra Ethernet,横向带宽 260 TB/s,HBM4 容量比英伟达 Rubin 机架多 50%。AMD 拥有 CPU-GPU-DPU 全栈,开始与英伟达 DGX 宇宙竞争。
原创 小黑羊 2025-06-14 00:30 北京
.

从 2023 年 AMD 把 MI300 系列摆上牌桌开始,「红绿大战」的战火,就烧得更猛了。昨夜凌晨的 Advancing AI 2025 现场,苏妈直接掏出 CDNA 4 架构 MI350X / MI355X——再顺带放出 MI400、Helios 机架、ROCm 7 全家桶,算是把“再战英伟达”五个字写得明明白白。下面我按“性能、内存、成本、生态、路线图”五个维度,给大家简单梳一遍核心看点。
推理侧,在vLLM / SGLang 跑分里,MI355X 对 DeepSeek R1、Llama 3 70B 推理吞吐量比 B200 高约 20–30 % 。训练侧,MI355X 预训练 Llama 3 70B(FP8)可跑出 MI300X 的 2.5–3.5 ×,与 B200/GB200 打成五五开 。其实,看到“老外”测试举例采用DeepSeek,内心中还是有一些小触动。毕竟「国货」能被当成测试例的机会不多。一句话:在当下流行的低精度 (FP8 以下)推理场景里,MI355X“更能打”。MI350系列内存容量 +60 %,内存带宽直上 8 TB/s。HBM3E 288 GB 、8 TB/s,单卡就敢装下 520 B 模型,B200 只有 192 GB、6.1 TB/s。 卡间互联IF Link 1075 GB/s(8 卡互联),再次把 NVL4 的900 GB/s 刷到身后。对超大模型/多实例推理来说,“HBM 多、带宽大”就是首要生产力。AMD 宣称 “每刀 token 数量”比 B200 多 40 %,理由简单粗暴:GPU 单卡价更低,同时288 GB HBM3E大显存,节约分片/分卡切分开销。另外采用FP4/FP6 能让推理更高效,算力密度更好。 接着看能耗,而在 Perf/W 上,MI350X 相比 MI300X 又提升 30 % 。换句话说,AMD 用“1000–1400W”功耗,跑出了与英伟达“GB200 2×1150W”同量级的推理成绩。这对大规模集群的 TCO 影响,肉眼可见。



CUDA让人又恨又爱,你讨厌它却又不得不和它一起建设“社会主义”。这就是闭源的痛,但AMD主导的ROCm是开源的——ROCm 7 推理性能相对 ROCm 6 提升 3.5×,训练提速 3×;Day-0 支持 Llama4、DeepSeek、Grok、Qwen 等主流模型(千问也被发了“好人卡”);Windows 端和 Ryzen AI 本地开发也全家桶加持。 开源框架 vLLM / SGLang 与 AMD 同步联调,DeepSeek R1 的 FP8 推理,NVIDIA TensorRT-LLM 还不支持,AMD 先落地了。这么说吧,“开源快过封闭” 是 AMD 给开发者的最大筹码。主卡一年一代,一代更比一代强,MI400已经在路上了。当然,“大机架”更能体现一个厂商的整体能力,这方面,AMD与英伟达可以一战,而老灯已经落伍了。Helios 把 UALink + Ultra Ethernet 搭起来,号称横向带宽 260 TB/s,HBM4 容量比N家 Rubin 机架多 50 % 。如今,AMD 把「CPU-GPU-DPU」全栈都握在自己手里,开始正面硬杠 NVIDIA 的 DGX 宇宙。
短期看,英伟达依旧握着整体性能优势、市场份额和CUDA护城河。但 AMD 这次把 “更高性价比的算力+更大的显存+更开放的软件” 三张牌同步打出。再加上 EPYC、Pensando、UALink 全家桶,MI350/400 显然有机会成为AI基建团队的新铲子。接下来一年里,如果你在甲方采购需求里,看到 “288 GB HBM3E / FP4 20 PFLOPS” 字样,不用太惊讶——那大概率是 AMD 再次把绿厂逼到了赛点。“那个男人”压轴来捧场了,苏妈笑开了花。















阅读原文
跳转微信打开