原创 信息平权 2024-12-14 22:16 上海
关于博通ASIC大卫星、Ilya的“预训练放缓”论,有一篇纪要特别适合当下的讨论。专家是著名“硅仙人” Jim Keller目前AI芯片创业公司的一名技术Lead,本人有17年AI芯片、自动驾驶、机器人等研发经验。有很多非共识的观点,比如o1不是最佳路线、GPU的短板等等
(以下仅代表专家个人观点,不代表xxpq观点)
1. 专家也认为模型性能提升趋于平稳,确实看到了收益递减的情况。但同时创新还在发生,比如通过模型架构及压缩方式的改变、硬件的创新、更好的数据集(扩充和质量提升),来触发下一轮性能提升。英伟达和各种AI芯片创新公司将推动硬件创新,Mistral 和 Falcon Mamba 架构等正在对 Transformer 架构发起挑战,同时其他模型架构改进也正在进行中。(xxpq:我之前提过一家华人做的all in RL的公司,他们最近炙手可热...)
2. 由于训练成本越来越高,只有少数CSP才有能力押注于训练。随着扩展定律收益递减,它们的策略可能会转向争夺客户、商业化、以及客户留存(说得很像现在的微软)。随着更加关注模型可部署性、创造营收,推理的重要性势必提高。开源模型地位会提升,AI应用厂商可以不用从头训练模型,在开源模型基础上,专注于构建应用,类似于云操作系统时代的Linux。
3. OpenAI的o1所提倡的Test time compute测试时间计算在未来不会成为常态,而只是解决准确性问题的一种变通方法。尽管测试时间计算通过在推理中进行前向和后向传递,能够解决安全和准确性方面的挑战,但在较大模型中每个请求的Token消耗会相当高(运行长推理工作负载时消耗的标记大约高出过去 4 - 5 倍),并且必须使用云端昂贵的GPU集群(无法在设备端运行),由此产生的成本和涉及的延迟(每次查询 10 - 30 秒),让准确性优势黯然失色。未来或许会有比测试时间计算更好的方法来解决准确性问题。(但专家也没说其他方法是什么)
4. 模型架构和模型尺寸,正在发生根本性变化,这会深刻改变AI硬件要求,同时会让AI不仅仅局限于数据中心,还将广泛应用于端侧
5. 分布式计算是未来(数据中心计算、边缘计算相结合),能够根据问题的复杂性、性质进行拆分查询,并将其导向边缘或云,从而解决计算能力方面的挑战。随着应用的涌现,会看到端侧AI模型的采用率提高,因为计算机中的每一层在拥抱AI(从底层内核到操作系统再到用户应用APP)。从商业经济学角度来看,边缘计算的兴起、并与云端计算分担负载是势在必行的。
6. 网络。机架内和机架间的网络都面临着解决高速和低延迟问题的挑战。生态参与者基本都认同,拥有一个基本开放的连接协议、能够随着时间推移实现改进,是未来的发展趋势。
(xxpq:这次ASIC的大卫星如果逐渐兑现,对网络厂商是明显利好,NV在网络上的搭售和“垄断”,对比ASIC的开放生态)
7. 中国AI芯片的突破口:由于对前沿半导体存在出口限制,中国AI芯片计算密度较低,他们可以采用横向扩展的方法。某些美国公司,如Groq 和 Cerebras,它们的芯片基于非前沿半导体工艺(12/14/16 纳米),采用这种方法,进行横向扩展。
8. 目前AI芯片厂商三大阵营:英伟达GPU、CSP+博通/Marvell的自制ASIC、新兴AI芯片设计厂商(Tenstorrent、Groq、Cerebras 等,采用全新架构)。
显然GPU更适合通用高性能计算,且在软件栈 / 编译器上的通用性是天生优势,定制芯片自然无法匹敌。但GPU面临一个根本问题,即将数据从芯片内转移到芯片外的成本,对它们来说持续居高不下。因为GPU最初并非为大规模矩阵乘法、激活函数、处理如此大的模型尺寸而设计。其存储层次和数据访问模式,对矩阵乘法不一定是最理想的。GPU通常高速缓存较小,当处理大规模矩阵乘法时,频繁的数据传输和存储访问延迟可能会成为性能瓶颈,也就是所谓内存墙。ASIC可以对内存、算子进行定制优化,绕过上述瓶颈。比如TPU的脉动阵列架构,其实可以高效地处理矩阵乘法。再比如Groq将RAM置于处理器内部,无需进行芯片外的数据传输,因此展现出更高吞吐。另一种路线是最近很热门的D-Matrix,存内计算。在某些场景下,的确会比GPU好。例如D-Matrix 每秒可处理多达6万token,Groq 在某些性能基准测试中比GPU快10-15 倍。
(xxpq:但Groq天然不适合大尺寸模型,导致可扩展性存在问题,之前被贾扬清吐槽过。整体上看,定制芯片的优化空间还是很大,如果CSP的场景和负载相对稳定之后,会非常适合定制芯片。以及我对ilya上午话的理解就是,在数据遇到瓶颈后,模型参数这个指标的scaling收益递减。这会深刻改变硬件需求。很多训练和推理场景下的复杂度,都源于模型参数“巨大”这个因子。因此目前的发展方向,ASIC是有机会的。同时新的scaling可能在其他维度提出要求,比如延迟,新的架构可能对编译器、算子的通用性提出要求,N卡依然离不开。最后结论倾向于,这不是二选一,最终如果推理起飞,算力总需求暴增,NV与ASIC平分天下依然各自市场巨大。老黄和老Tan的表述都很激进,前途也都是光明的,就看谁短期业绩别先出问题...)
纪要完整版上传过了,此外今天传了英伟达最新一次IR路演,也欢迎加入讨论ASIC相关投资机会,大家想法挺丰富,比如“博”字辈...