雪球网今日 2024年08月28日
光会取代铜吗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

随着大模型参数量增大,对算力和数据传输带宽要求提高。文中分析了AI硬件资源部署的训练和推理场景,指出训练场景需互联更多GPU,推理场景对‘单一’GPU集群需求小,铜连接服务器性价比高。AI发展与否影响铜和光的未来,若发展,铜光共进。

🧐AI硬件资源部署分为训练和推理场景。训练是把海量资料喂给大模型以获得AI能力,随着模型参数指数级增长,需将更多GPU互联提高训练效率,但成本高。推理是使用训练好的模型进行需求推理并输出结果,对硬件要求远低于训练。

🤔对于推理场景,爆款应用会大量使用性价比更高的铜连接服务器。云端服务器集群无需将很多机柜中的GPU连接成‘单一’GPU集群,可通过负载均衡使用单个服务器或RACK,降低部署和管理成本。

😕不少人对AI的疑虑是缺乏爆款产品,即推理需求少,焦点在训练。若AI不能发展,铜和光都无未来;若发展,大量推理服务器需部署,铜光共进,硅光连接用于超大规模参数量训练。

来源:雪球App,作者: szgz,(https://xueqiu.com/4062859110/302689456)

$沃尔核材(SZ002130)$ $神宇股份(SZ300563)$

最近@闷得而蜜 一直在给球友们普及一个“未来”:随着大模型的参数量越来越大,需要的算力、数据传输带宽会越来越高,Q4才会交付的NVL72在将来是没法满足Datacenter的需求的,必须有更大规模的“单一”GPU集群来升级算力,因为更大的“单一”GPU集群无法部署到一个机柜,是分布在很多个机柜里,那么为了将这些机柜里的所有GPU连接起来形成一个“单一”的GPU集群,就只能放弃传输距离受限的高速铜缆连接,转而采用目前正在研发的光链接。

这个说法乍一看挺有道理,因而引起了不少持有铜缆的球友的疑虑。这里我就分析一下这种说法的问题:

要说清楚这个问题,首先需要普及一下目前关于AI的一个常识:AI硬件资源的部署是分为两个场景的,训练+推理。训练很好理解,就是把海量的资料喂给大模型,经过训练获得一个具有AI能力的模型,典型场景就是openai训练gpt3.5、gpt4、gpt4o等等模型。所谓推理,其实就是使用训练好的模型,把提交给它的需求,经过模型进行推理,得出结果输出给使用者,典型场景就是我们向chatgpt提问,它给出回答。

对于训练的场景,随着模型参数指数级增长,确实如@闷得而蜜 所说,会朝着那个方向发展,需要把越来越多的GPU互联起来成为一个“单一”GPU,这样训练的效率才会很高。但这个对应的是高部署成本、高管理成本、高单点故障

但是对于推理的场景,其实对“单一”GPU集群的需求就小很多了。想一想tesla训练FSD12.3以上模型是需要非常大的服务器集群,但是训练好的FSD12.5模型只需要部署到tesla的车机上,甚至FSD12.5.1.5都能部署在几年前就发布的HW3.0上。就是推理对于硬件要求是远远远低于训练的。所以推理场景(爆款应用)还是会大量使用性价比更高的铜连接服务器,云端虽然是服务器集群,但不需要把很多机柜中的GPU连接起来形成一个“单一”GPU集群,而是通过负载均衡使用很多单个的服务器或者RACK。这样不但降低部署成本,也能降低管理成本

现在不少人对于AI的一个疑虑就是缺乏爆款产品,其实对应的就是推理的需求少,大家的焦点还是在于对于模型的训练。但是如果真正看好AI,那就肯定对将来出现大量爆款应用有信心。如果对于推理的需求不能爆发,那么对于训练的需求也无法长久,毕竟赚钱是要靠推理,训练是要花费大量成本的。

所以如果AI不能发展起来,那么铜和光都没有未来。如果AI发展起来,那么铜就是星辰大海(大量的推理服务器需要部署,云端和企业本地化部署),硅光连接用在超大规模参数量训练,规模应该也不小,铜光共进。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI发展 训练推理 铜连接 光连接
相关文章