IT之家 02月12日
单机即可部署运行 DeepSeek R1 671B 模型,浪潮信息推出元脑 R1 推理服务器
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

浪潮信息推出了元脑R1推理服务器,该服务器通过系统创新和软硬协同优化,实现了单机部署运行DeepSeek R1 671B模型。DeepSeek R1 671B模型作为全参数基础大模型,对系统显存容量、显存带宽和互连带宽提出了更高要求。元脑R1推理服务器NF5688G7原生搭载FP8计算引擎,提供1128GB HBM3e显存,满足模型需求,显存带宽达4.8TB/s。另一款服务器NF5868G8专为大推理模型设计,单机支持16张标准PCIe双宽卡,提供最高1536GB显存容量,并通过软硬协同优化提升模型推理性能。

🚀 **元脑R1推理服务器发布:** 浪潮信息推出元脑R1推理服务器,旨在通过系统创新和软硬协同优化,实现单机部署运行DeepSeek R1 671B模型,为大模型推理提供更优解决方案。

🧠 **NF5688G7:** 该型号原生搭载FP8计算引擎,提供1128GB HBM3e显存,满足DeepSeek R1 671B模型在FP8精度下的显存需求(至少800GB),并保留充足的KV缓存空间,显存带宽高达4.8TB/s,GPU P2P带宽达900GB/s,基于最新推理框架单机可支持20-30用户并发,配备3200Gbps无损扩展网络。

💡 **NF5868G8:** 专为大推理模型设计,首次实现单机支持16张标准PCIe双宽卡,提供最高1536GB显存容量,支持在FP16/BF16精度下单机部署DeepSeek 671B模型。采用基于PCIe Fabric的16卡全互连拓扑,任意两卡P2P通信带宽可达128GB/s,降低通信延迟超60%,通过软硬协同优化,相较传统机型推理性能提升近40%。

IT之家 2 月 12 日消息,浪潮信息今日宣布推出元脑 R1 推理服务器,通过系统创新和软硬协同优化,单机即可部署运行 DeepSeek R1 671B 模型

IT之家注:DeepSeek 开源了多版本模型,其中,DeepSeek R1 671B 模型作为全参数基础大模型,相比蒸馏模型具有更强的泛化能力、更高的准确性和更好的上下文理解能力,但也对系统显存容量、显存带宽、互连带宽和延迟提出了更高要求:

在 FP8 精度下至少需要约 800GB 显存承载,FP16 / BF16 精度下需要 1.4TB 以上的显存空间

此外,DeepSeek R1 是典型的长思维链模型,具有短输入、长输出的应用特点,推理解码阶段依赖更高的显存带宽和极低的通信延迟。

元脑 R1 推理服务器 NF5688G7 原生搭载 FP8 计算引擎,提供 1128GB HBM3e 显存,满足 671B 模型 FP8 精度下不低于 800GB 显存容量的需求,单机支持全量模型推理情况下,仍保留充足的 KV 缓存空间,该机的显存带宽可达 4.8TB/s。

在通信方面,GPU P2P 带宽达 900GB/s,基于最新推理框架单机可支持 20-30 用户并发。同时,单台 NF5688G7 配备 3200Gbps 无损扩展网络,可根据用户业务需求增长实现敏捷扩展,提供 R1 服务器集群 Turnkey 解决方案。

元脑 R1 推理服务器 NF5868G8 是专为大推理模型(Large Reasoning Model)设计的高吞吐推理服务器,业界首次实现单机支持 16 张标准 PCIe 双宽卡,提供最高 1536GB 显存容量,支持在 FP16 / BF16 精度下单机部署 DeepSeek 671B 模型。

该机采用基于 PCIe Fabric 的 16 卡全互连拓扑,任意两卡 P2P 通信带宽可达 128GB/s,降低通信延迟超 60%。通过软硬协同优化,相较传统 2 机 8 卡 PCIe 机型,NF5868G8 可将 DeepSeek 671B 模型推理性能提升近 40%,目前已支持多元 AI 加速卡选配。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

浪潮信息 元脑R1 DeepSeek R1 推理服务器 大模型
相关文章