文 | 融中财经
一个登顶,一个起跳,4.2万亿美元与60亿美元的落差,为AI芯片战局埋下新变量。
一边是英伟达市值冲破4.2万亿美元,成为历史上首家达到这一规模的科技公司——这个数字超过了英国所有上市公司的市值总和,堪称商业史上“大象级”的存在。
7月15日,英伟达CEO黄仁勋年内第三次访华,宣布美国批准恢复向中国出口定制的H20芯片,重启占其总营收13%(约170亿美元)的中国市场,彰显其巩固AI时代统治地位的雄心。
另一边,2016年成立的加州初创公司Groq正洽谈新一轮融资:以60亿美元(约430亿人民币)的投后估值募集3-5亿美元的资金,用于履行与沙特阿拉伯的重磅合同。
当黄仁勋在东方意气风发之际,Groq创始人乔纳森·罗斯正盯着沙特的数据中心屏幕——那里由1.9万颗自研芯片组成的AI推理集群,从2024年12月搭建到投入运行仅用了8天,成为中东加速AI基建的核心引擎。
60亿对4.2万亿,Groq以不足英伟达0.2%的体量,展开了一场“不对称”的芯片竞赛。
这家公司被视为英伟达最强的竞争对手之一。它以LPU芯片的SRAM架构和TSP流式计算专攻推理,靠80TB/s片上带宽和静态调度砍掉延迟,瞄准英伟达H100的推理短板;英伟达则凭CUDA生态和HBM显存垄断,一边用H200强化推理能效,一边通过供应链控制(如买断HBM产能)压制对手。
前者借沙特布局和开源模型突围,后者靠开发者绑定和全栈优势死守,在推理市场上演“精准狙击”与“生态护城河”的攻防战。
创企中的“金汤玩家”
这家2016年诞生于硅谷的公司,从诞生就自带“明星基因”。
创始人乔纳森·罗斯(Jonathan Ross)的履历本身就是块金字招牌——他是谷歌第一代张量处理单元(TPU)的核心研发成员,亲历了AI芯片从实验室走向产业化的关键阶段。公司的另一位创始人是谷歌Alphabet的X实验室工程师道格拉斯·怀特曼(Douglas Wightman)。同样值得关注的是Groq的硬件工程副总裁吉姆·米勒(Jim Miller),这位行业老兵既主导过亚马逊AWS云计算硬件的开发与交付,也曾在英特尔领衔Pentium II处理器项目,横跨消费电子与企业级硬件两大领域。
罗斯和米勒的履历吸引了前谷歌TPU团队80%的核心成员加入Groq,这种人才聚集效应在2024年Groq的沙特投资后进一步放大——Groq与Meta合作,为其官方Llama API提供推理加速服务;Meta首席AI科学家Yann LeCun以技术顾问身份支持Groq; 英特尔前晶圆厂负责人Stuart Pann则出任Groq首席运营官(COO)。
顶级团队自然吸引顶级资本。
2024年8月,黑石集团(BlackRock)领投了Groq 6.4亿美元的D轮融资,思科、三星Catalyst基金等机构跟投,让Groq的估值一举冲到28亿美元。短短一年后,其估值即将翻倍至60亿美元,成为AI芯片赛道成长最快的独角兽之一。
此次Groq募资3-5亿美元,除了履行和沙特的合同,帮助其AI推理数据中心项目快速落地外,还包括构建北美本土供应链、扩张GroqCloud开发者生态,以及应对英伟达H200芯片量产带来的竞争压力。尽管沙特协议带来长期收入预期,但里程碑式付款条款导致2025年上半年需补充流动资金以应对产能爬坡前的资金缺口。
Groq的融资带着明确的战略意图。
2024年底,Groq以闪电般的速度开启在沙特的战略布局。早在2024年9月,Groq便与沙特阿美的数字与技术子公司Aramco Digital签署谅解备忘录,计划在沙特达曼建设全球最大规模的AI推理数据中心。
作为落地的第一步,Groq于2024年12月在达曼快速部署了包含1.9万个LPU(语言处理单元)的推理集群,仅用8天时间即完成上线,每日可处理数十亿Tokens(词元),展现出惊人的执行效率。
为适配沙特的高温环境,Groq对硬件设计进行了针对性优化,同时启动阿拉伯语NLP模型的本地化开发,以满足中东市场的特定需求。
该项目被纳入沙特“2030愿景”,沙特阿美为此提供了上亿美元的资金支持,目标在2025年将处理能力提升至每日数千亿Tokens,并最终部署10.8万个LPU芯片,形成全球最大的AI推理基础设施之一。这一布局依托沙特的地缘优势、低廉的能源成本和充足的建设空间。Groq的快速行动为其后续获得沙特15亿美元投资承诺奠定了基础。
2025年2月,沙特主权基金通过沙特阿美旗下Aramco Digital向其抛出15亿美元投资承诺,条件是协助沙特建设本土AI基础设施。这笔钱不仅让Groq的现金流底气十足,更让其业绩预期飙升:2025年营收有望实现跨越式增长,达到5亿美元,使Groq迈入“亿级营收俱乐部”。
不碰“训练”主战场,专啃“推理”硬骨头
Groq从没想过与英伟达在AI训练芯片市场正面交锋。
当英伟达的GPU凭借CUDA生态在训练领域占据超80%市场份额时,它选了条差异化路线:专注于AI推理芯片。
这步棋精准踩中了行业痛点。AI计算的“训练”与“推理”环节有着本质区别:训练像“教学生”,需要海量数据反复调整模型参数,对算力的通用性和精度要求极高;推理则像“学生答题”,需要在毫秒级时间内给出结果,更强调低延迟、高并发和低成本。
英伟达的GPU本是为图形渲染设计的,改造后用于AI训练合适,但拿来做推理却有些“大材小用”——其硬件资源中,有相当一部分是为支持训练时的复杂梯度计算而设计,在推理阶段反而成了冗余负担。
Groq的核心产品LPU(Language Processing Unit)就是冲着推理场景的痛点来的。它不追求“全能型”算力,而是聚焦“推理专项优化”:让Meta的Llama、谷歌的Gemma等已训练完成的大模型,在执行文本生成、语义理解等任务时跑得更快、更省电。
根据Groq官方在2024年底发布的基准测试结果,搭载LPU芯片的Llama模型,在大模型推理任务中每秒能生成500个Tokens(文本词元),对比英伟达H100(FP16)的150个Tokens每秒的速度快了约3倍,对比英伟达H200的200 Tokens每秒的速度,也快了两倍多。
在商业模式上,Groq也与英伟达走出了完全不同的路径。
英伟达靠“硬件销售+软件生态”的组合拳盈利——既卖GPU芯片和DGX服务器等硬件,又通过CUDA平台绑定开发者;
Groq则另辟蹊径,采用“芯片即服务”模式:自己建设数据中心,将LPU芯片组成服务器集群,向客户提供云端推理算力租用服务。这种模式让客户无需直接采购硬件,直接通过API调用就能体验其芯片性能,大大降低了尝试门槛。
今年7月,Groq宣布在欧洲芬兰建设新的数据中心,进一步扩大云端服务版图,显然是想通过“服务先行”策略快速占领市场。
Groq的技术手册里藏着不少“反套路”设计。
当行业巨头们比拼4nm、5nm、7nm先进制程时,它反其道而行之,选择相对成熟的14nm工艺;当英伟达的H100 GPU依赖HBM高带宽显存提升性能时,Groq在LPU芯片里塞进了230MB SRAM高速缓存,靠架构创新弥补制程差距。
这步险棋意外走通了。大带宽SRAM让LPU的片上内存带宽达到80TB/s,数据可以在芯片内部高速流转,不必频繁访问板载显存,直接将推理延迟砍掉一半以上。
更关键的是,这种设计让Groq避开了HBM显存的供应链瓶颈——英伟达的H100之所以常年缺货,很大程度上受制于HBM显存的产能,而SRAM的供应相对稳定,让LPU的量产更有保障。
架构层面的差异更具颠覆性。
英伟达GPU采用“SIMD”架构,擅长同时处理大量相似任务,但需要动态调度线程,存在一定算力闲置;Groq的TSP(Tensor Streaming Processor)架构则采用“流式计算”模式,将推理任务拆解成固定流水线,通过静态调度让每个时钟周期的算力都得到充分利用。这种设计让单颗LPU芯片的算力达到1000万亿次运算每秒(1000 TOPS),在部分机器学习模型上,速度比常规GPU甚至谷歌TPU快10到100倍。
Groq的技术路线虽在推理场景展现优势,但也存在显著短板。
LPU芯片内置230MB SRAM虽能实现高带宽,但单芯片内存远低于英伟达H100的80GB HBM显存,导致运行大模型时需大规模集群拆分。
正如原阿里技术副总裁贾扬清的推算,运行Llama-70b模型理论上需572颗LPU(单芯片2万美元,总成本超1100万美元),而8颗H100(总成本约30万美元)即可实现相当性能,硬件成本差距达30倍以上。尽管实际部署中可通过模型分片优化,但大规模集群的运维复杂度和能耗(576颗LPU集群功耗约100kW,8卡H100约30kW)仍显著高于GPU方案。
更关键的是专用架构的场景局限性:专用硬件的静态调度优势在算法迭代频繁时反而成为劣势,难以像GPU通过软件更新快速适配新模型。
生态破局与市场裂缝
技术再强,没有生态支撑也难成气候。英伟达的CUDA平台已积累超400万开发者,形成“硬件-软件-开发者”的稳固三角,这是任何挑战者都绕不开的高墙。Groq的破局策略是"借船出海":尽可能对接现有开源生态,降低开发者的迁移成本。
它首先瞄准了开源大模型社群。Groq团队花了大量精力优化Meta的Llama系列、谷歌的Gemma等热门开源模型在LPU芯片上的运行效率,这些模型本身已积累数百万开发者,只要证明LPU能让模型跑得更快,自然能吸引开发者尝试。更关键的是,Groq在2025年推出了开发者控制台,通过友好的编程接口和免费算力(每月1000万Tokens的额度)试用政策,目前吸引了7.5万名开发者注册。
价格策略同样服务于生态扩张。LPU芯片2万美元出头的定价,不仅比英伟达H100的2.5-3万美元低,也比部分中端GPU更具吸引力。Groq CEO乔纳森·罗斯曾表示,到2025年底,Groq计划部署150万颗推理芯片,占据全球一半的AI推理计算能力。这番话虽有营销成分,却精准点出了行业趋势——AI算力投入的重心正从模型训练阶段向推理阶段倾斜。
英伟达当然不会坐视“Groq们”蚕食市场。
面对推理芯片的崛起,它已迅速调整策略:推出基于安培架构的A30/A10等推理专用GPU,优化TensorRT软件库的推理延迟,并通过Triton推理服务器提供端到端加速方案,试图将训练领域的优势延伸到推理市场。
更难撼动的是CUDA生态的“惯性”。开发者在CUDA平台上积累了大量代码和工具链,迁移到新平台需要重新学习和调试,这种“路径依赖”让很多企业宁愿忍受GPU的高成本,也不愿冒险尝试新方案。
有行业人士透露,部分企业在与Groq接触时异常谨慎,生怕消息走漏后被英伟达“穿小鞋”——比如延迟交付GPU,这种隐形压力客观上抬高了新芯片的推广门槛。
然而,市场永远存在裂缝。
2024年以来的“GPU荒”让客户苦不堪言:云计算厂商为了抢购英伟达芯片,不得不提前几个月下单,否则就可能排不上产能。这种供需失衡让企业开始主动寻找“第二供应商”,降低对单一厂商的依赖,这为Groq创造了窗口期。
更重要的是,AI芯片市场并非“二元对立”。除了英伟达和Groq,英国的Graphcore、中国的寒武纪、美国的Cerebras等玩家都在各自的技术路线上发力,形成“一超多强”的竞争格局。
Groq的优势在于,它抓住了沙特等新兴市场的需求——中东国家正雄心勃勃地建设AI基础设施,既有钱又有场景,还乐于扶持非美国主流的技术供应商以实现技术自主,这种地缘需求为Groq提供了理想的“试验田”。
然而,面对新兴市场的争夺,初创公司如Groq需加速布局——因为巨头们也没有停下脚步。继去年12月Groq在沙特布局后,今年5月,英伟达与AMD也发现了这一新兴市场,相继宣布在沙特建设芯片制造及AI基础设施基地,直接切入中东AI算力核心市场,这无疑给后来者增添了竞争压力。
全球AI芯片的竞合态势,在中国市场呈现出更复杂的张力。
近期,英伟达宣布H20芯片将重新在中国市场销售,虽H20受限于算力阈值(较H100略有下调),但凭借成熟的CUDA生态和高性能,短期内仍会分流部分对高端算力有迫切需求的企业(如大模型训练机构、云端服务商),给华为昇腾、寒武纪、壁仞科技等国内芯片企业带来直接竞争压力——尤其在需要兼容国际主流框架的场景中,国产芯片的生态适配成本仍需时间抹平。
这种压力也在迫使中国AI芯片市场加速“场景化突围”。
不同于国际市场聚焦通用算力,中国市场的核心机会藏在垂直场景的深度绑定中:在智慧城市领域,海光芯片支撑的边缘计算节点,能高效处理交通摄像头的实时视频流(每秒解析30路4K画面),适配国内复杂的路况算法;自动驾驶赛道,地平线系列芯片已搭载于比亚迪、长城、理想等车企的多款车型,在辅助驾驶系统中负责视觉感知任务。
中国AI芯片市场的突围路径,正通过垂直场景的深度绑定逐步清晰——避开通用算力的正面竞争,在本土特色场景中打磨技术与生态。
结语
这场60亿对4.2万亿的较量,才刚刚开始。
它的结局大概不是“你死我活”的零和游戏,而是形成“多元共生”的生态平衡:英伟达继续主导高端AI训练市场,Groq等新锐在推理细分赛道分得一杯羹。
这一格局恰似行业演进的常态:正如智能手机时代,苹果、三星锚定高端市场,小米、传音则在中低端与新兴市场开辟空间,彼此并非替代而是互补;又如AI领域,通用大模型与垂直场景的AI Agent各司其职——前者支撑基础能力,后者深耕具体需求。
对整个行业来说,这种竞争是好事。Groq的出现至少能迫使英伟达优化推理芯片的成本和性能,让更多企业用得起AI算力。毕竟,AI应用的场景丰富——从智能客服到自动驾驶,从医疗诊断到工业质检,不同场景对算力的需求千差万别,既需要英伟达这样的“全能选手”,也需要Groq这样的“专精玩家”。
“某种程度上,我们的存在对英伟达反而是一种利好,”Groq CEO罗斯说。“他们可以继续生产那些高利润训练用的GPU,而我们则接手他们不太想做、低利润但高产量的推理业务。”
当年没人能想到,一家显卡公司能成为AI时代的“卖铲人”;同理,今天估值60亿美元的Groq,十年后或许会在AI芯片版图中占据重要一席。
罗斯直言:“你的工作不是跟随浪潮,而是要提前站位,准备好迎接它。”
无论Groq最终能否撼动英伟达,它所代表的创新精神和差异化打法都为行业带来了新的思考:在巨头林立的AI时代,小团队依然有机会凭借卓越的洞察和执行,实现对大象的“蚂蚁撼树”——或许不能将之推倒,却足以令大象为之侧目,不得不改变方向。
这正是技术进步最迷人的地方,也是市场竞争的价值所在。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App