AMD再战英伟达！

特大号 19小时前

AMD再战英伟达！

AMD 在 Advancing AI 2025 大会上发布了 MI350 系列芯片，包括 MI350X 和 MI355X，旨在与英伟达竞争。文章从性能、内存、成本、生态和路线图五个维度，分析了 MI350 系列的核心优势。MI355X 在推理性能上表现出色，尤其是在低精度推理场景中。内存容量和带宽大幅提升，成本和能耗方面也更具竞争力。此外，AMD 强调开源生态，并展示了其在路线图和机架方面的布局，试图挑战英伟达的领先地位。

🚀 性能方面：MI355X 在 vLLM 和 SGLang 跑分中，对 DeepSeek R1 和 Llama 3 70B 推理吞吐量比 B200 高约 20-30%。在预训练 Llama 3 70B（FP8）时，MI355X 性能是 MI300X 的 2.5-3.5 倍，与 B200/GB200 相当。

💾 内存与带宽：MI350 系列内存容量增加了 60%，内存带宽达到 8 TB/s。MI350X 采用 HBM3E 288 GB，单卡即可支持 520B 模型。卡间互联 IF Link 达到 1075 GB/s，超过 NVL4 的 900 GB/s，对超大模型推理有显著优势。

💰 成本与能耗：AMD 宣称“每刀 token 数量”比 B200 多 40%，原因在于 GPU 单卡价格更低，且 288 GB HBM3E 大显存可节约分片/分卡开销。MI350X 的 Perf/W 相比 MI300X 提升了 30%，以 1000-1400W 的功耗，达到与英伟达 GB200 2x1150W 同量级的推理性能。

🌱 生态系统：AMD 采用开源的 ROCm，ROCm 7 推理性能相对 ROCm 6 提升 3.5 倍，训练提速 3 倍。Day-0 支持 Llama4、DeepSeek、Grok、Qwen 等主流模型。开源框架 vLLM 和 SGLang 与 AMD 同步联调，FP8 推理方面，AMD 领先于英伟达 TensorRT-LLM。

🗓️ 路线图与机架：AMD 计划一年一代发布 MI 系列产品，MI400 已经在路上。Helios 机架采用 UALink + Ultra Ethernet，横向带宽 260 TB/s，HBM4 容量比英伟达 Rubin 机架多 50%。AMD 拥有 CPU-GPU-DPU 全栈，开始与英伟达 DGX 宇宙竞争。

原创小黑羊 2025-06-14 00:30 北京

从 2023 年 AMD 把 MI300 系列摆上牌桌开始，「红绿大战」的战火，就烧得更猛了。昨夜凌晨的 Advancing AI 2025 现场，苏妈直接掏出 CDNA 4 架构 MI350X / MI355X——再顺带放出 MI400、Helios 机架、ROCm 7 全家桶，算是把“再战英伟达”五个字写得明明白白。

下面我按“性能、内存、成本、生态、路线图”五个维度，给大家简单梳一遍核心看点。

性能：算力拳拳到肉

推理侧，在vLLM / SGLang 跑分里，MI355X 对 DeepSeek R1、Llama 3 70B 推理吞吐量比 B200 高约 20–30 % 。

训练侧，MI355X 预训练 Llama 3 70B（FP8）可跑出 MI300X 的 2.5–3.5 ×，与 B200/GB200 打成五五开。

其实，看到“老外”测试举例采用DeepSeek，内心中还是有一些小触动。毕竟「国货」能被当成测试例的机会不多。

一句话：在当下流行的低精度 (FP8 以下)推理场景里，MI355X“更能打”。

内存：容量激增，带宽飙升

MI350系列内存容量 +60 %，内存带宽直上 8 TB/s。

HBM3E 288 GB 、8 TB/s，单卡就敢装下 520 B 模型，B200 只有 192 GB、6.1 TB/s。

卡间互联IF Link 1075 GB/s（8 卡互联），再次把 NVL4 的900 GB/s 刷到身后。

对超大模型/多实例推理来说，“HBM 多、带宽大”就是首要生产力。

成本&能耗：按摩店老招牌

AMD 宣称 “每刀 token 数量”比 B200 多 40 %，理由简单粗暴：

GPU 单卡价更低，同时288 GB HBM3E大显存，节约分片/分卡切分开销。

另外采用FP4/FP6 能让推理更高效，算力密度更好。

接着看能耗，而在 Perf/W 上，MI350X 相比 MI300X 又提升 30 % 。

换句话说，AMD 用“1000–1400W”功耗，跑出了与英伟达“GB200 2×1150W”同量级的推理成绩。

这对大规模集群的 TCO 影响，肉眼可见。

生态：开源AMD vs 闭源英伟达

CUDA让人又恨又爱，你讨厌它却又不得不和它一起建设“社会主义”。

这就是闭源的痛，但AMD主导的ROCm是开源的——

ROCm 7 推理性能相对 ROCm 6 提升 3.5×，训练提速 3×；Day-0 支持 Llama4、DeepSeek、Grok、Qwen 等主流模型（千问也被发了“好人卡”）；Windows 端和 Ryzen AI 本地开发也全家桶加持。开源框架 vLLM / SGLang 与 AMD 同步联调，DeepSeek R1 的 FP8 推理，NVIDIA TensorRT-LLM 还不支持，AMD 先落地了。

这么说吧，“开源快过封闭” 是 AMD 给开发者的最大筹码。

路线图、大机架PK

主卡一年一代，一代更比一代强，MI400已经在路上了。

当然，“大机架”更能体现一个厂商的整体能力，这方面，AMD与英伟达可以一战，而老灯已经落伍了。

Helios 把 UALink + Ultra Ethernet 搭起来，号称横向带宽 260 TB/s，HBM4 容量比N家 Rubin 机架多 50 % 。

如今，AMD 把「CPU-GPU-DPU」全栈都握在自己手里，开始正面硬杠 NVIDIA 的 DGX 宇宙。

流水不争先，争的是滔滔不绝

短期看，英伟达依旧握着整体性能优势、市场份额和CUDA护城河。

但 AMD 这次把 “更高性价比的算力+更大的显存+更开放的软件” 三张牌同步打出。

再加上 EPYC、Pensando、UALink 全家桶，MI350/400 显然有机会成为AI基建团队的新铲子。

接下来一年里，如果你在甲方采购需求里，看到 “288 GB HBM3E / FP4 20 PFLOPS” 字样，不用太惊讶——

那大概率是 AMD 再次把绿厂逼到了赛点。