虎嗅 02月17日
LPU取代英伟达?我看够呛
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

最近A股市场围绕Deepseek和LPU芯片概念展开热烈讨论。LPU,即语言处理单元,是美国Groq公司发布的一款AI处理器,专为大语言模型推理设计。尽管LPU被一些人视为英伟达GPU的潜在替代者,但其局限性也不容忽视。LPU通过将通用GPU中的高带宽内存替换为速度更快的静态随机内存,提高了推理速度。然而,LPU的专用性使其在处理图像视频等任务时缺乏优势,且在AI训练方面也存在局限。此外,LPU的成本和效率提升幅度与当年的ASIC矿机相比仍有差距,未来发展仍存在不确定性。因此,在AI行业充满变数的情况下,投资者应谨慎对待LPU概念股。

💡LPU芯片是美国Groq公司推出的一款专为大语言模型推理设计的AI处理器,旨在通过优化内存结构提高推理速度。它通过将通用GPU中的高带宽内存(HBM)替换为容量更低、但速度更快的静态随机内存(SRAM),从而加速大语言模型的计算过程。

💰 LPU虽然在理论上具有成本优势,但实际运营成本可能远高于英伟达GPU。有测算显示,三年运营成本下,LPU的采购成本可能是英伟达H100的38倍,运营成本也高达10倍。

⚠️ LPU芯片的专用性限制了其应用范围。与通用GPU相比,LPU在处理图片、视频等多任务时缺乏优势,且在AI训练方面,内存较小的SRAM也难以满足需求。这种局限性使得LPU难以完全替代通用GPU。

⛏️ LPU与当年的ASIC矿机有相似之处,都是针对特定应用设计的专用芯片。然而,LPU的效率提升幅度远不及当年ASIC矿机对显卡的提升,这使得LPU面临成为“矿渣”的风险。

都说资本市场从来不缺故事讲,最近A股大神们讲的故事那都绕不开Deepseek,各种小作文全方面吹了一波国产大模型的技术路线,想必各位也已经快听吐了。

眼瞅着Deepseek的底裤都快被人扒下来了,托尼心想着这下总归不会有新东西可以拿出来了吧,各家上市公司的股价也可以消停一波了。结果这两天又在微博刷到几篇震惊体作文,说“Deepseek已经是前菜啦,LPU才是真正的氢弹级突破!”

一听氢弹都来了,还是点进去看看吧。托尼也好奇,这号称能扼杀英伟达前程的LPU芯片到底是什么来头。

不过在连续看了几篇文章、读了几篇研报之后,托尼觉得这芯片真没股票专家们吹得那么美好……

首先给大家介绍一下“LPU”到底是个啥。

它并不是什么新东西,特指去年美国Groq公司发布的一款AI处理器,它的中文名字叫做“语言处理单元”,给大语言模型做推理计算用的。值得一提的是目前暂时没有任何国产的消息,说实话这概念就算用在炒A股上也是有点超前了。

它如今又被大家拿出来炒,还是因为有人研究了Deepseek的低成本方案,发现他们仅仅在CUDA驱动的PTX层做了一些优化,就实现了内存和通信效率的大幅提升。那么如果再“为算法单独设计硬件”,效率的提升会更加可观。

于是大伙儿突然想开了,之前干AI就往上堆显卡的做法是自己把路走窄了。现有的硬件和软件都能再压榨压榨,能起到事半功倍的效果。

这软件Deepseek干了,硬件嘛,研究员们翻箱倒柜找出来的玩意就是LPU了。作为针对大语言模型推理专门设计出的硬件,在发布之初,官方宣称它的推理速度是英伟达GPU的十倍,成本却仅有英伟达的十分之一。

它的高效率实现原理其实不复杂,LPU把通用GPU里头的高带宽内存换成了容量更低、但速度更快的静态随机内存,对于大语言模型这种需要频繁读取内存的计算来说,推理速度就会快不少。

给大家举个例子吧,HBM就好比是原本的双向八车道,虽然很宽但什么车都能跑、红绿灯也多,反而很容易堵在一起;而SRAM就像是双向两车道、只能跑公交的快速路,虽然车道变少了,但通行效率却更高。

听起来有点意思是吧?众所周知,这显卡原本是给游戏佬们打游戏用的,误打误撞整了个CUDA之后被人发现很适合算AI,老黄也顺水推舟布局了一下通用GPU和AI运算,结果就造就了如今的万亿帝国;这LPU听名字就是给大模型准备的,这岂不是比英伟达的起点还要高?

好了,说到这里托尼要开始泼冷水了:事实上当前LPU的局限性可能比你想象的要多,未来怎么样不好说,至少现在看来想替代通用GPU还差点意思。

为了解释这个问题,我们首先得讲一个看起来表面没什么关联的故事——关注币圈的老哥们可能都知道,有个东西叫做ASIC矿机。这里所谓的“ASIC”是一种专为某种用途定制的芯片。用于挖矿的ASIC直接在硬件层面就实现了某种挖矿算法,这样一来挖矿的效率要比显卡高上不少,费用也要便宜一些。

你看,更低成本、更高效率、专用芯片,听起来跟LPU好像是一个路子呀?

但是直到最后,显卡都没有被“矿场”淘汰,还是老黄自己出手自废武功,禁了40、50系显卡挖矿时的HASH算力。这是为什么呢?因为ASIC矿机的计算效率确实是高,但代价就是……“专用”。

前面说到了,ASIC芯片在硬件设计层面就匹配了挖矿的算法,所以就导致挖比特币的ASIC矿机能且只能挖比特币、挖以太坊的能且只能挖以太坊。矿主们要是想换个币挖挖,那得连机器一块换了才行。这就有点抽象了哇:要是哪天比特币不值钱了,哥们囤的比特币矿机不就都成矿渣了?

后来加密货币逐渐井喷,一天发一个新币种不难,但是一天设计一款新的ASIC挖矿芯片可就没那么容易了。

现在大伙应该明白了,显卡相比矿机看似毫无优势却能经久不衰,主要原因就在于显卡更“通用”。即使英伟达40系开始已经不再能挖矿了,矿场上还是有很多30系的显卡在发光发热。

而LPU这边儿也是差不多道理,正因为它是专用于大语言模型推理的芯片,所以要是让它处理个图片视频之类的就没有优势了。可如今人们都想让AI干更多的事儿,除了能推理还需要它能识别物品、听懂语言,全靠LPU撑起AI算力的一片天显然不现实。而且在AI训练这方面,内存较小的SRAM也难堪大用,还是得显卡出手。

而且,“ASIC矿机”能够引爆市场还有一个原因——它不仅仅是比显卡高效那么简单,它是比显卡的效率高了一千多倍!比特币ASIC矿机发展到最后,挖矿效率甚至比显卡高了上万倍!

但如今的LPU芯片远没有这么夸张的效率提升:Groq官方说效率提升一百多倍,也有新闻说提升十几倍。但不论是哪个信源的结论,都比当年ASIC矿机的成绩差远了,谁能保证LPU会不会成为更不值钱的矿渣?

还有各家资本侃侃而谈的成本,其实去年的这个时候,我们的同行“芯东西”也写过LPU芯片的消息,其中引用了前阿里副总裁贾扬清做过的一个粗略的测算:

按照三年时间的运营成本来计算,Groq LPU的采购成本会是英伟达H100的38倍,运营成本则达到了10倍。

看到这里,LPU芯片目前是个什么水平相信大家也都比较清楚了。

托尼并不认为LPU是个没用的东西,毕竟当年NPU刚推出的时候,小伙伴们普遍也都不太看好——但是如今几乎只要是个消费级的处理器芯片,里面就会集成一个小型NPU。

但托尼觉得,如今吹LPU还是有点儿为时过早,尤其是各路A股大神借着LPU就开始“荐股”,搞得我也挺纳闷儿的,不知情的还以为LPU是中国公司造的。这可真是有点儿不厚道了。

更何况,当下的AI行业还是有很多的不确定性——Deepseek的低成本模式会不会是昙花一现?现在的AI模型会不会被更高效的取代?下一代GPU会不会有划时代的技术突破?这些谁也说不准。

当然了,未来的不确定性也有可能是对LPU有利的。但现阶段咱还是别听A股大神们胡吹,他们要是能压准,早就不在这儿给你推荐LPU概念股了。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LPU芯片 AI算力 Deepseek A股 Groq
相关文章