IT之家 11小时前
消息称华为即将发布 AI 推理领域突破性成果:降低对 HBM 依赖,提升国内大模型性能
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

华为即将在2025金融AI推理应用论坛上公布一项AI推理领域的关键技术突破,旨在减少中国AI推理对HBM高带宽内存的依赖,并显著提升国内AI大模型的推理性能。此举有望完善中国AI推理生态的关键环节。此前,华为已在AI推理领域展现实力,如与北京大学合作的DeepSeek全栈开源推理方案,以及在昇腾平台上实现的单卡Decode吞吐量突破1920 Tokens/s等高性能表现。与科大讯飞的合作也展示了国产算力在MoE模型大规模集群推理上的优势,大幅提升了推理效率。

💡 华为将在2025金融AI推理论坛上发布一项降低中国AI推理对HBM高带宽内存依赖的突破性技术,旨在提升国内AI大模型的推理性能,并完善中国AI推理生态的关键部分。

🚀 华为在AI推理领域已有技术积累,例如北京大学联合华为发布的DeepSeek全栈开源推理方案,该方案成功整合了多种开源组件,在华为昇腾平台上实现了DeepSeek的高效推理。

📈 华为昇腾在性能方面已取得显著进展,如CloudMatrix 384超节点部署DeepSeek V3/R1时,在50ms时延约束下,单卡Decode吞吐量可达1920 Tokens/s以上;Atlas 800I A2推理服务器在100ms时延约束下,单卡吞吐量达到808 Tokens/s。

🤝 华为与科大讯飞的合作成果显著,率先实现了国产算力上MoE模型的大规模跨节点专家并行集群推理,将推理吞吐量提升了3.2倍,并使端到端时延降低了50%。

IT之家 8 月 10 日消息,据《科创板日报》报道,华为将于 8 月 12 日在 2025 金融 AI 推理应用落地与发展论坛上,发布 AI 推理领域的突破性技术成果。据透露,这项成果或能降低中国 AI 推理对 HBM(高带宽内存)技术的依赖,提升国内 AI 大模型推理性能,完善中国 AI 推理生态的关键部分。

IT之家注意到,华为在 AI 推理领域的技术突破已有先例。2025 年 3 月,北京大学联合华为发布了 DeepSeek 全栈开源推理方案,该方案基于北大自研 SCOW 算力平台系统和鹤思调度系统,整合了 DeepSeek、openEuler、MindSpore 与 vLLM / RAY 等社区开源组件,实现了华为昇腾上的 DeepSeek 高效推理。

在性能方面,华为昇腾已实现多项突破。例如 CloudMatrix 384 超节点部署 DeepSeek V3 / R1 时,在 50ms 时延约束下单卡 Decode 吞吐突破 1920 Tokens / s;Atlas 800I A2 推理服务器在 100ms 时延约束下单卡吞吐达到 808 Tokens / s。

科大讯飞与华为的合作也取得了显著成果,双方率先实现了国产算力上 MoE 模型的大规模跨节点专家并行集群推理,使推理吞吐提升 3.2 倍,端到端时延降低 50%。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

华为 AI推理 昇腾 HBM AI大模型
相关文章