特大号 19小时前
AMD再战英伟达!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AMD 在 Advancing AI 2025 大会上发布了 MI350 系列芯片,包括 MI350X 和 MI355X,旨在与英伟达竞争。文章从性能、内存、成本、生态和路线图五个维度,分析了 MI350 系列的核心优势。MI355X 在推理性能上表现出色,尤其是在低精度推理场景中。内存容量和带宽大幅提升,成本和能耗方面也更具竞争力。此外,AMD 强调开源生态,并展示了其在路线图和机架方面的布局,试图挑战英伟达的领先地位。

🚀 性能方面:MI355X 在 vLLM 和 SGLang 跑分中,对 DeepSeek R1 和 Llama 3 70B 推理吞吐量比 B200 高约 20-30%。在预训练 Llama 3 70B(FP8)时,MI355X 性能是 MI300X 的 2.5-3.5 倍,与 B200/GB200 相当。

💾 内存与带宽:MI350 系列内存容量增加了 60%,内存带宽达到 8 TB/s。MI350X 采用 HBM3E 288 GB,单卡即可支持 520B 模型。卡间互联 IF Link 达到 1075 GB/s,超过 NVL4 的 900 GB/s,对超大模型推理有显著优势。

💰 成本与能耗:AMD 宣称“每刀 token 数量”比 B200 多 40%,原因在于 GPU 单卡价格更低,且 288 GB HBM3E 大显存可节约分片/分卡开销。MI350X 的 Perf/W 相比 MI300X 提升了 30%,以 1000-1400W 的功耗,达到与英伟达 GB200 2x1150W 同量级的推理性能。

🌱 生态系统:AMD 采用开源的 ROCm,ROCm 7 推理性能相对 ROCm 6 提升 3.5 倍,训练提速 3 倍。Day-0 支持 Llama4、DeepSeek、Grok、Qwen 等主流模型。开源框架 vLLM 和 SGLang 与 AMD 同步联调,FP8 推理方面,AMD 领先于英伟达 TensorRT-LLM。

🗓️ 路线图与机架:AMD 计划一年一代发布 MI 系列产品,MI400 已经在路上。Helios 机架采用 UALink + Ultra Ethernet,横向带宽 260 TB/s,HBM4 容量比英伟达 Rubin 机架多 50%。AMD 拥有 CPU-GPU-DPU 全栈,开始与英伟达 DGX 宇宙竞争。

原创 小黑羊 2025-06-14 00:30 北京

.

从 2023 年 AMD 把 MI300 系列摆上牌桌开始,「红绿大战」的战火,就烧得更猛了。昨夜凌晨的 Advancing AI 2025 现场,苏妈直接掏出 CDNA 4 架构 MI350X / MI355X——再顺带放出 MI400、Helios 机架、ROCm 7 全家桶,算是把“再战英伟达”五个字写得明明白白。

下面我按“性能、内存、成本、生态、路线图”五个维度,给大家简单梳一遍核心看点。

01

性能:算力拳拳到肉

推理侧,在vLLM / SGLang 跑分里,MI355X 对 DeepSeek R1Llama 3 70B 推理吞吐量比 B200 高约 20–30 % 

训练侧,MI355X 预训练 Llama 3 70B(FP8)可跑出 MI300X 的 2.5–3.5 ×,与 B200/GB200 打成五五开  

其实,看到“老外”测试举例采用DeepSeek,内心中还是有一些小触动。毕竟「国货」能被当成测试例的机会不多。

一句话:在当下流行的低精度 (FP8 以下)推理场景里,MI355X“更能打”。

02

内存:容量激增,带宽飙升

MI350系列内存容量 +60 %,内存带宽直上 8 TB/s。

HBM3E 288 GB 、8 TB/s,单卡就敢装下 520 B 模型,B200 只有 192 GB、6.1 TB/s。 

卡间互联IF Link 1075 GB/s(8 卡互联),再次把 NVL4 的900 GB/s 刷到身后。

对超大模型/多实例推理来说,“HBM 多、带宽大”就是首要生产力。

03

成本&能耗:按摩店老招牌

AMD 宣称 “每刀 token 数量”比 B200 多 40 %,理由简单粗暴:

GPU 单卡价更低,同时288 GB HBM3E大显存,节约分片/分卡切分开销。

另外采用FP4/FP6 能让推理更高效,算力密度更好。 

接着看能耗,而在 Perf/W 上,MI350X 相比 MI300X 又提升 30 %  

换句话说,AMD 用“1000–1400W”功耗,跑出了与英伟达“GB200 2×1150W”同量级的推理成绩。

这对大规模集群的 TCO 影响,肉眼可见。

04

生态:开源AMD vs 闭源英伟达

CUDA让人又恨又爱,你讨厌它却又不得不和它一起建设“社会主义”。

这就是闭源的痛,但AMD主导的ROCm是开源的——

ROCm 7 推理性能相对 ROCm 6 提升 3.5×,训练提速 3×;Day-0 支持 Llama4、DeepSeek、Grok、Qwen 等主流模型(千问也被发了“好人卡”);Windows 端和 Ryzen AI 本地开发也全家桶加持。 开源框架 vLLM / SGLang 与 AMD 同步联调,DeepSeek R1 的 FP8 推理,NVIDIA TensorRT-LLM 还不支持,AMD 先落地了。

这么说吧,“开源快过封闭” 是 AMD 给开发者的最大筹码。

05

路线图、大机架PK

主卡一年一代,一代更比一代强,MI400已经在路上了。

当然,“大机架”更能体现一个厂商的整体能力,这方面,AMD与英伟达可以一战,而老灯已经落伍了。

Helios 把 UALink + Ultra Ethernet 搭起来,号称横向带宽 260 TB/s,HBM4 容量比N家 Rubin 机架多 50 %  

如今,AMD 把「CPU-GPU-DPU」全栈都握在自己手里,开始正面硬杠 NVIDIA 的 DGX 宇宙。

06

流水不争先,争的是滔滔不绝

短期看,英伟达依旧握着整体性能优势、市场份额和CUDA护城河。

但 AMD 这次把 更高性价比的算力+更大的显存+更开放的软件” 三张牌同步打出。

再加上 EPYC、Pensando、UALink 全家桶,MI350/400 显然有机会成为AI基建团队的新铲子。

接下来一年里,如果你在甲方采购需求里,看到 “288 GB HBM3E / FP4 20 PFLOPS” 字样,不用太惊讶——

那大概率是 AMD 再次把绿厂逼到了赛点。

“那个男人”压轴来捧场了,苏妈笑开了花。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AMD MI350 AI芯片 英伟达 ROCm
相关文章