原创 算力百科 J 2025-03-15 05:45 贵州
智算中心的基本概念!
问题1: Transformer算法是由谷歌2017年提出,并开源;
Transformer 是Google Brain 2017年的提出的一篇工作,使得深度学习模型参数突破了1亿,Transformer 取代RNN、CNN进入大模型时代。
正是因为算法开源,所以“吹牛”的厂商更多,特别是deepseek开源之后,阿猫阿狗都能干大模型。
问题2: 大模型的“大”是相对的;
大模型的大是指参数量的巨大,只要采用了“注意力机制”的Transformer结构的机器学习模型,都可以统称为“大模型”;大多数情况下参数越大,大模型智商越高。
deepseek是671B 相当于6710亿的参数,比作人脑有6710亿的神经元,神经元越多越聪明,当然神经元少也可能有很多天才或者弱智。
问题3: 大模型不一定参数规模越大效果越好;
可以类比于人的学习过程看,参数就像大脑容量,数据集为教材,训练方法为学习方法,他们缺一不可,都需要经过长时间优化,充足的脑容量,加上优秀的教材以及最适合的学习方法,才能在测试集中取得高的准确率,类似于考试获得高分。这是相对的,但是大多数情况是参数越多越好,不是绝对的。
比如说QWQ32B超过了671B,当然这个要看各自任务测试,真真假假,各自认知。
问题4: 为什么大模型训练需要智算中心支持FP8/FP16/FP32等多种格式;
关于计算精度:有INT4、INT8、FP8、FP16、FP32、FP64、TF16等等,通常大家认为1INT8=1FP8,其实这个有前置条件的极少数情况下公式才成立,比如有的AI芯片不支持FP8,所以没法等价交换。这主要取决于模型训练厂商的技术选择,deepseek只是刚好选择了fp8计算,让很多不支持FP8的算力中心吃瘪啦。
举例:通常说的100P,默认是指100P FP16稠密算力(稠密算力近似等于2倍稀疏算力)很多时候为了汇报好看,也有用稀疏算力的,因为汇报P数会倍增,比如本来1000P稠密算力就可以汇报成2000P稀疏算力,多有面子。招标的时候按照2000p算力,不标明稀疏或者稠密!
FP32(单精度浮点数):由1个符号位、8个指数位和23个有效数字位组成的浮点数,可以表示大约3.40282347×10^38个不同的数值。
FP16(半精度浮点数):由1个符号位、5个指数位和10个有效数字位组成的浮点数,可以表示大约6.10^4个不同的数值。
由于fp16的值区间比fp32的值区间小很多,所以在计算过程中很容易出现上溢出(Overflow,>65504 )和下溢出(Underflow,<6x10^-8 )的错误,溢出之后就会出现“Nan”的问题;
解决办法:混合精度加速,简单的讲就是使用fp16进行乘法和存储,只使用fp32进行加法操作,避免累加误差;
问题5: 英伟达CUDA 已经成为事实上的全球AI基础设施技术标准体系,英伟达占全球AI算力90%以上市场,高端算力处于绝对垄断地位,国产算力刚刚起步…这个没啥好挣的,慢慢努力就好。
问题6:智算中心是软硬一体化整体优化的算力基础设施,算力设备只占总投资的40%( 40%算力设备,30%算力辅助设备,30%软件平台),但是很多时候,大家默认软件免费送不值钱,只原因出硬件的钱,所以很多项目烂尾。当然也有一些买了软件的一样烂尾。
问题7: 大模型合规,2023年8月15日《生成式人工智能服务管理暂行办法》正式实施,大模型业务需要依法合规,对外提供APi服务需要备案。
问题8: 目前在制定中的法律条文,开放式是很多法规参与方之一;
《信息安全技术 生成式人工智能服务安全总体要求》、《信息安全技术 生成式人工智能预训练和优化训练数据安全规范》、《信息安全技术 生成式人工智能人工标注安全规范》等国家标准形成配套指引(很多政策,目前正在制定中)
问题9: 智算中心和大模型产业应该市场化和市政化并举;
市场化:依靠市场的方式发展智算中心和大模型产业,钱来自市场,市场?要算账!
市政化:依靠政府投资的方式发展智算中心和大模型产业,钱来自政府财政,?可。。。
市场化和市政化一字之差,南辕北辙,所有人都希望接市政化项目。
问题10: 关注开源生态爆发增长趋势,deepseek大模型相关技术极有可能主导产业生态,新技术正在涌现,日新月异,一定要跟上新技术发展脚步。
关于计算单位:智算中心单位用xxP标量(FLOPS是floating point operations per second每秒所执行的浮点运算次数的英文缩写。它是衡量一个电脑计算能力的标准);
·FLOPS(Floating-Point Operations Per Second) - 这是衡量计算机或其他设备执行浮点运算速度的基本单位,表示每秒钟可以执行多少次浮点运算(加、减、乘和除等运算)。FLOPS 以前通常用于衡量大规模科学计算和数值模拟等需要双精度浮点数计算的应用程序,现在也被用于描述AI高精度训练算力。
·1 GFLOPS(Giga-FLOPS),表示每秒钟执行十亿次浮点运算(10^9)。
·1 TFLOPS(Tera-FLOPS),表示每秒钟执行1万亿次浮点运算(10^12)。
·1 PFLOPS(Peta-FLOPS),表示每秒钟执行1千万亿次浮点运算(10^15)。
·1 EFLOPS(Exa-FLOPS),表示每秒钟执行1百亿亿次浮点运算(10^18)。
·1 ZFLOPS(Zetta-FLOPS),表示每秒钟执行十亿亿亿次浮点运算(10^21)。
·1 YFLOPS(Yotta-FLOPS),表示每秒钟执行1万亿亿亿次浮点运算(10^24)。
整型数据运算能力通常使用TOPS(Tera Operations Per Second)来描述,即每秒多少万亿次(10^12)。对于64位CPU处理器,指的就是64位整型数据的处理能力。但在GPU和DSA的领域,描述多少TOPS,可能是INT32,也有可能是INT8,还有可能是INT4。
关于计算精度:有INT4、INT8、FP8、FP16、FP32、FP64、BF16等等,通常大家认为1FP32=2F16,其实这个有前置条件,且在极少数情况下公式才成立,同时,1BF6也不等于1FP16;FP8也不等于INT8;
举例:通常说的100P,默认是指100P FP16 稠密算力(稠密算力近似等于2倍稀疏算力,稀疏算力和稠密算力也要注意区分)
FP64:双精度浮点数,占用64位存储空间,通常用于大规模科学计算、工程计算等需要高精度计算的算法。
FP32:单精度浮点数,占用32位存储空间。与双精度浮点数相比,存储空间较小但精度较低,部分科学计算和工程计算也可以使用FP32,但通常也用于神经网络的前向推理和反向传播计算。
FP16:半精度浮点数,占用16位存储空间。存储空间更小但精度进一步降低,通常用于模型训练过程中参数和梯度的计算。
BF16: 用于半精度矩阵乘法计算(GEMM)的浮点数格式,占用16位存储空间。相对于FP16,在保持存储空间相同的情况下能够提高运算精度和效率。
TF32:TensorFLoat-32,是NVIDIA定义的使用TensorCore的中间计算格式。
FP8:FP8采用两种编码方式:E4M3(4位指数+3位尾数)和E5M2(5位指数+2位位尾数)。前者适合高精度场景(如权重和激活值),后者动态范围更广(如梯度计算)。作为深度学习领域的新型低精度计算格式,凭借其显著的计算效率和内存优化能力,正在推动大模型训练与推理技术的革新
INT8:8位整数,用于量化神经网络的计算,由于存储和计算都相对于浮点数更加高效,在低功耗、嵌入式系统和边缘设备等领域有着广泛的应用。用TOPS(Tera Operations Per Second,每秒处理的万亿级别的操作数)作为计算性能的单位。
INT4:4位整数,只能表示-8到7的16个整数。因为新的量化技术出现,追求更低的存储空间,减少计算量和更高的算力密度,而产生的新格式。
其他标准的整数类型,16位整型INT16,32位整型INT32,deng64位整型等。
通常AI芯片支持的格式越多,算力用途越广。
欢迎加入DS前瞻圈,一起领略Deepseek引领AI文艺复兴!!