算力百科 03月15日
智算中心,甲方技术10个问题
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入探讨了智算中心在支持大模型训练中的关键作用。从Transformer算法的开源到大模型参数规模的相对性,再到计算精度格式的选择,文章详细解析了智算中心的基本概念和技术挑战。文章还强调了软硬件一体化优化的重要性,并讨论了大模型合规性问题以及市场化与市政化并举的发展模式。此外,文章还关注开源生态的增长趋势,以及各种计算单位和精度的差异,为读者提供了全面了解智算中心的视角。

💡Transformer算法的开源是推动大模型发展的关键因素,但也导致了市场参与者的良莠不齐,开源后降低了大模型入局门槛,促进了技术快速发展。

🧠大模型的“大”主要体现在参数量上,参数越多,模型智商越高,但并非绝对。参数、数据集和训练方法如同大脑容量、教材和学习方法,共同决定了模型的性能,三者缺一不可。

🧮智算中心需要支持多种计算精度格式(如FP8/FP16/FP32),以适应不同模型训练的需求。计算精度的选择取决于模型训练厂商的技术选择,同时也影响着算力中心的兼容性。在算力汇报时,需要区分稠密算力和稀疏算力,避免虚报算力。

🏛️智算中心是软硬一体化整体优化的算力基础设施,但软件价值往往被低估,导致项目烂尾。同时,大模型合规性问题日益重要,需要遵守相关法规,并进行备案。

💰智算中心和大模型产业应市场化和市政化并举。市场化依靠市场资金,注重成本效益;市政化依靠政府投资,可能面临效率问题。两种模式各有优劣,应根据实际情况选择。

原创 算力百科 J 2025-03-15 05:45 贵州

智算中心的基本概念!

    问题1: Transformer算法是由谷歌2017年提出,并开源;

Transformer Google Brain 2017年的提出的一篇工作,使得深度学习模型参数突破了1亿,Transformer 取代RNNCNN进入大模型时代。 

    正是因为算法开源,所以“吹牛”的厂商更多,特别是deepseek开源之后,阿猫阿狗都能干大模型。

    问题2: 大模型的“大”是相对的;

    大模型的大是指参数量的巨大,只要采用了“注意力机制”的Transformer结构的机器学习模型,都可以统称为“大模型”;大多数情况下参数越大,大模型智商越高。

    deepseek是671B 相当于6710亿的参数,比作人脑有6710亿的神经元,神经元越多越聪明,当然神经元少也可能有很多天才或者弱智。

    问题3: 大模型不一定参数规模越大效果越好;

  可以类比于人的学习过程看,参数就像大脑容量,数据集为教材,训练方法为学习方法,他们缺一不可,都需要经过长时间优化,充足的脑容量,加上优秀的教材以及最适合的学习方法,才能在测试集中取得高的准确率,类似于考试获得高分。这是相对的,但是大多数情况是参数越多越好,不是绝对的。

    比如说QWQ32B超过了671B,当然这个要看各自任务测试,真真假假,各自认知。

    问题4: 为什么大模型训练需要智算中心支持FP8/FP16/FP32等多种格式

    关于计算精度:INT4INT8FP8FP16FP32FP64TF16等等,通常大家认为1INT8=1FP8,其实这个有前置条件的极少数情况下公式才成立,比如有的AI芯片不支持FP8,所以没法等价交换。这主要取决于模型训练厂商的技术选择,deepseek只是刚好选择了fp8计算,让很多不支持FP8的算力中心吃瘪啦。

    举例:通常说的100P,默认是指100P FP16稠密算力(稠密算力近似等于2倍稀疏算力)很多时候为了汇报好看,也有用稀疏算力的,因为汇报P数会倍增,比如本来1000P稠密算力就可以汇报成2000P稀疏算力,多有面子。招标的时候按照2000p算力,不标明稀疏或者稠密!

    FP32(单精度浮点数):由1个符号位、8个指数位和23个有效数字位组成的浮点数,可以表示大约3.40282347×10^38个不同的数值。

    FP16(半精度浮点数):由1个符号位、5个指数位和10个有效数字位组成的浮点数,可以表示大约6.10^4个不同的数值。

      由于fp16的值区间比fp32的值区间小很多,所以在计算过程中很容易出现上溢出(Overflow>65504 )和下溢出(Underflow<6x10^-8 )的错误,溢出之后就会出现“Nan”的问题;

     解决办法:混合精度加速,简单的讲就是使用fp16进行乘法和存储,只使用fp32进行加法操作,避免累加误差;

    问题5: 英伟达CUDA 已经成为事实上的全球AI基础设施技术标准体系,英伟达占全球AI算力90%以上市场,高端算力处于绝对垄断地位,国产算力刚刚起步…这个没啥好挣的,慢慢努力就好。

    问题6:智算中心是软硬一体化整体优化的算力基础设施,算力设备只占总投资的40% 40%算力设备,30%算力辅助设备,30%软件平台),但是很多时候,大家默认软件免费送不值钱,只原因出硬件的钱,所以很多项目烂尾。当然也有一些买了软件的一样烂尾。

    问题7: 大模型合规,2023815日《生成式人工智能服务管理暂行办法》正式实施,大模型业务需要依法合规,对外提供APi服务需要备案。

    问题8: 目前在制定中的法律条文,开放式是很多法规参与方之一;

《信息安全技术 生成式人工智能服务安全总体要求》、《信息安全技术 生成式人工智能预训练和优化训练数据安全规范》、《信息安全技术 生成式人工智能人工标注安全规范》等国家标准形成配套指引(很多政策,目前正在制定中)

 问题9: 智算中心和大模型产业应该市场化和市政化并举;

市场化:依靠市场的方式发展智算中心和大模型产业,钱来自市场,市场?要算账!

市政化:依靠政府投资的方式发展智算中心和大模型产业,钱来自政府财政,?可。。。

 市场化和市政化一字之差,南辕北辙,所有人都希望接市政化项目。

问题10: 关注开源生态爆发增长趋势,deepseek大模型相关技术极有可能主导产业生态,新技术正在涌现,日新月异,一定要跟上新技术发展脚步。

关于计算单位智算中心单位用xxP标量(FLOPSfloating point operations per second每秒所执行的浮点运算次数的英文缩写。它是衡量一个电脑计算能力的标准);

·FLOPSFloating-Point Operations Per Second - 这是衡量计算机或其他设备执行浮点运算速度的基本单位,表示每秒钟可以执行多少次浮点运算(加、减、乘和除等运算)。FLOPS 以前通常用于衡量大规模科学计算和数值模拟等需要双精度浮点数计算的应用程序,现在也被用于描述AI高精度训练算力。

·1 GFLOPSGiga-FLOPS),表示每秒钟执行十亿次浮点运算(10^9)。

·1 TFLOPSTera-FLOPS),表示每秒钟执行1万亿次浮点运算(10^12)。

·1 PFLOPSPeta-FLOPS),表示每秒钟执行1千万亿次浮点运算(10^15)。

·1 EFLOPSExa-FLOPS),表示每秒钟执行1百亿亿次浮点运算(10^18)。

·1 ZFLOPSZetta-FLOPS),表示每秒钟执行十亿亿亿次浮点运算(10^21)。

·1 YFLOPSYotta-FLOPS),表示每秒钟执行1万亿亿亿次浮点运算(10^24)。

 整型数据运算能力通常使用TOPSTera Operations Per Second)来描述,即每秒多少万亿次(10^12)。对于64CPU处理器,指的就是64位整型数据的处理能力。但在GPUDSA的领域,描述多少TOPS,可能是INT32,也有可能是INT8,还有可能是INT4

 关于计算精度INT4INT8FP8FP16FP32FP64BF16等等,通常大家认为1FP32=2F16,其实这个有前置条件,且在极少数情况下公式才成立,同时,1BF6也不等于1FP16FP8也不等于INT8

 举例:通常说的100P,默认是指100P FP16 稠密算力(稠密算力近似等于2倍稀疏算力,稀疏算力和稠密算力也要注意区分

FP64:双精度浮点数,占用64位存储空间,通常用于大规模科学计算、工程计算等需要高精度计算的算法。

  FP32:单精度浮点数,占用32位存储空间。与双精度浮点数相比,存储空间较小但精度较低,部分科学计算和工程计算也可以使用FP32,但通常也用于神经网络的前向推理和反向传播计算。

    FP16:半精度浮点数,占用16位存储空间。存储空间更小但精度进一步降低,通常用于模型训练过程中参数和梯度的计算。

  BF16: 用于半精度矩阵乘法计算(GEMM)的浮点数格式,占用16位存储空间。相对于FP16,在保持存储空间相同的情况下能够提高运算精度和效率。

TF32TensorFLoat-32,是NVIDIA定义的使用TensorCore的中间计算格式。

    FP8:FP8采用两种编码方式:E4M3(4位指数+3位尾数)和E5M2(5位指数+2位位尾数)。前者适合高精度场景(如权重和激活值),后者动态范围更广(如梯度计算)。作为深度学习领域的新型低精度计算格式,凭借其显著的计算效率和内存优化能力,正在推动大模型训练与推理技术的革新

  INT88位整数,用于量化神经网络的计算,由于存储和计算都相对于浮点数更加高效,在低功耗、嵌入式系统和边缘设备等领域有着广泛的应用。用TOPSTera Operations Per Second,每秒处理的万亿级别的操作数)作为计算性能的单位。

  INT44位整数,只能表示-8716个整数。因为新的量化技术出现,追求更低的存储空间,减少计算量和更高的算力密度,而产生的新格式。

其他标准的整数类型,16位整型INT1632位整型INT32deng64位整型等。

通常AI芯片支持的格式越多,算力用途越广。

欢迎加入DS前瞻圈,一起领略Deepseek引领AI文艺复兴!!


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

智算中心 大模型 Transformer 计算精度 开源生态
相关文章