算力百科 04月21日
英伟达GPU价格,配置映射关系
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入探讨了高端AI服务器的选购要点,强调了卡间互联和HBM显存的重要性。文章对比了不同配置对服务器性能的影响,并介绍了常见的互联协议,如NVLink和UALink。此外,文章还分析了OAM和PCIE两种AI模组形态的区别,以及在实际应用中的选择策略。最后,文章建议用户根据自身需求和预算,选择合适的服务器配置,避免盲目追求高端配置。

💡高端AI服务器的定义包含两个关键条件:卡间互联和HBM显存。卡间互联对于高端AI卡至关重要,类似于生育能力,影响其性能表现。

⚙️在选购AI服务器时,应重点关注CPU、内存和网卡的配置。CPU的型号、内存的DDR5或DDR4类型、以及网卡的数量和型号,都会直接影响服务器的性能和性价比。

🔗卡间互联协议是PCIe的补充,目前存在多种不兼容的协议,如NVLink、XLink等。UALink 200G 1.0规范支持大规模加速器互联,但参与方多为国外企业。

💾HBM显存是高端AI芯片的标配,但HBM2e的性能可能不如GDDR7。国产AI卡在HBM方面相对落后,基本停留在HBM2e水平。

💡AI模组形态(OAM vs PCIe)的选择取决于需求和预算,OAM和PCIE都可以支持卡间互联。PCIe的性价比通常更高,而OAM提供了更全面的硬件模块规范。

原创 算力百科 2025-04-20 10:56 北京

卡间互联对于高端卡好比喻男人有没有生育能力,没有卡间互联的也叫高端AI卡,没有生育能力的男人也叫男人,但是毕竟都是“隐疾”。

高端Ai服务器定义,满足以下2个条件:

条件1.卡间互联

条件2.显存HBM 

    以H100为例子,不同的设备比如H100或者H20 为啥差别很大,主要是因为配置不同,成本差别10~20w,所以有差别!

    选型应该重点看:(数值越大性能越强)

    1.cpu:是85xx 还是84xx,最差的就是83xx 设置还有65xx,64xx

等等

    2.内存:内存是DDR5 还是DDR4,DDR5又分6400和5600还是4800 价格又不同 

    3.网卡:满配应该是8+2+1 11张网卡,8张CX7+2张CX6+1张BF3,

    网卡最新的是CX8 依次是CX8,CX7,CX6,CX5依次降低

    同样的价格下,配置越高,性价比越高,甲方会觉得自己赚到啦!

    当然根据需求选择自己合适的型号,不一定要买满配,

    最委屈的是,很多人花了满配的价格,买了个乞丐版配置,还以为自己占便宜啦.

    关于卡间互联:卡间互联是对PCIE协议的补充,为啥会有卡间互联,pcie是个联盟参与各方利益要达成一致,才能成为标准,因此标准升级很慢。

    各家AI芯片忍不了,各家就推出了自己的卡间互联协议对pcie做补充,比如nvlink,xlink,metalink,mlulink,反正每个高端卡都有这个协议,这个标准相互不兼容。现在又出了UALink 200G 1.0 规范发布,支持 1024 个加速器互联。但是UALink联盟参与方都是国外的,不让中国参与!!


    卡间互联对于高端卡好比喻男人有没有生育能力,没有卡间互联的也叫高端AI卡,没有生育能力的男人也叫男人,但是毕竟都是“隐疾”。

    HBM是高端AI芯片的标配,这里指的是最新一代比如HBM3E肯定比GDDR7高端,但是HBM2e其实比不上GDDR7。这好比10年前的奥迪A6,今年的比亚迪旗舰一样。    

    目前国产AI卡HBM基本停留在三星的HBM2e基本上打不过GDDR7系列。

    关于AI模组形态是OAM还是PCIE其实区别不大,并不是OAM就一定比PCIE形态高贵这个说法,只是大家为了区别价格不同,往往PCIE性价比更高,pcie和oam都可以支持卡件互联。

区别项

PCIe

OAM

全称

Peripheral Component   Interconnect Express(外围组件互连高速)

OCP Accelerator   Module(开放计算项目加速模块)

标准制定

 PCI-SIGPCI 特殊兴趣小组)制定

由开放计算组织 OCP  OAI(开放式加速器基础设施)小组制定

设计目标

为桌面计算机、服务器和高性能计算系统提供高带宽和低延迟的数据传输

解决 AI 加速卡硬件互相不兼容等一系列问题,提供一套指导 AI 硬件加速模块和系统设计的标准

应用场景

广泛应用于 PC、服务器等,用于连接显卡、存储设备、网络适配器等高性能外部设备

主要用于 AI 服务器等场景,指导 AI 硬件加速模块和系统设计,包括 AI 加速卡、主板、机箱、供电、散热以及系统管理等

数据传输模式

采用点对点串行通信,支持全双工传输,支持多条 Lane 并行传输

基于以太网协议或者 PCIe 协议,支持多种高速互连通信协议,在 OAM1.0 规范下,基于以太网协议能够支持 56Gbps 的互连速率,基于 PCIe 则最高支持 PCIe 5.032Gbps

体系结构

基于交换机的点对点网络结构

定义了 AI 硬件加速模块本身、互连速率、互连拓扑、主板、机箱、供电、散热以及系统管理等系列设计规范

扩展性

高扩展性,支持多设备互连

支持多模块互连,以满足 AI 大模型训练等对算力的高要求

功能特点

提供高带宽、低延迟的数据传输,具备高数据完整性和可靠性

不仅关注数据传输,还涵盖了硬件模块的规范、供电、散热、系统管理等方面,以实现 AI 硬件的高效协同工作

功耗

相对较高,新版本引入低功耗模式

根据具体的硬件设计和应用场景有所不同,在 AI 服务器中需考虑整体的功耗管理以满足算力需求和能效比要求

        当然一分钱,一分货,不要想着捡漏,够用就行,预算少,就降低预期,买一个低端的够用就行!


全国首个算力和大模型工程专属服务IP


算力宝典,第一章、算力中心从入门到精通【概述篇】

算力宝典,第二章 算力中心从入门到精通【模式篇】

算力宝典,第三章、算力中心从入门到精通【方案篇】
    
欢迎加入社群↓

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI服务器 卡间互联 HBM显存 OAM PCIE
相关文章