信息平权 01月25日
AI 竞赛白热化
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AI研究进入白热化,强化学习受重视,模型发展变化快。新推理模型对硬件有新要求,如兼顾吞吐和延迟,需大推理集群,GB200需求确定,WSE架构对中国有借鉴意义。

🧠AI研究白热化,全球前沿实验室押注强化学习

🎯新推理模型需同时兼顾Throughput吞吐和Latency延迟

💻GB200推理成本下降,解决硬件需求问题,需求确定

📈WSE架构有优势,对中国解决硬件问题有借鉴意义

原创 信息平权 2025-01-22 22:10 上海

今天最重磅的话,可能就是Anthropic CEO Dario说的“2027年会看到模型在绝大多数领域超过人类”。Sam Altman因为太多次“狼来了”信誉有点受损...但Dario的形象一直比较克制理性和真诚,他的话很多人会听。而Dario还提到另一件事:即将看到的变革,就是大规模使用强化学习。不必区分RL和测试时计算,而应该是连续的过程,模型能够思考并反思自己的思维,并最终给出结果

这和最近DeepSeek-r1传达的信息貌似一致:让模型在RL环境中自我探索,最终涌现出了所谓“啊哈”时刻,似乎具备了自我验证和反思能力。

以上说明,强化学习训练方式依然有巨大潜力,RL is so back...但从Q-star传闻、到草莓、再到今天的r1,已经一年多了,RL这件事的重要性尤其是天花板一直有分歧。时至今日,全球的前沿实验室集体押注RL,甚至中美在这一点上几乎没有认知和实践上的时间差。Anthropic即将推出自己的“RL浓度更高的”新模型,OpenAI也会加速迭代o3/o4/o5,中国又有接二连三的厂商加入强化学习和推理模型炼丹。从这一点看,AI的研究不仅没有放缓,而是进入了白热化...过去的局面是全世界追赶OpenAI,而今天的局面更像是赛马,且争分夺秒相当焦灼。

上周见朋友还在说,我们不可能比前沿researcher更懂模型发展,连Dario也承认每隔几个月都会在“撞墙”“没撞墙”之间切换,说明行业发展变化的速度,超过了任何人的预判能力。作为投资人,先承认自己对此没有判断力可能是第一步正确选择...然后基于行业阶段和动态,保持一点模糊的乐观。

问题来了,新的范式下,对硬件要求有什么新的变化?中国在台积电如此严格的审查下有何对策?

一位NV大佬跟我彻底讲清楚了,r1和o3这种推理模型与以往GPT系列最大不同,是要同时兼顾Throughput吞吐和Latency延迟,尤其是无论是长CoT还是MCTS都要在极短时间内生成几百几千条(老黄甚至说几亿条)推理结果,这和过去一个prompt生成一条output是天壤之别。虽然模型不像1.8万亿MoE这样恐怖...但也不小,以及连续多步推理中间产生的context依然很长。上述复杂因子综合起来,还是需要大的推理集群。尤其是GB200那个30倍的推理成本下降、以及更被大家忽视的延迟latency的下降,成了解决上述问题的关键方法之一。因此GB200就算现在难产,但需求非常确定,但凡出来一定被秒光。

而另一个路径,可能会对中国有借鉴意义。就是Cerebras和Groq为代表的WSE架构。在过去MoE LLM范式下的致命弱点已经被贾扬清分析过,简单说就是SRAM的性价比问题,不适合“大”模型时代,一旦集群推理在单位成本上没有任何优势。然而,在reasoning model或者o3/r1这种范式下,延迟和极低的单位成本为了第一优化目标,基于SRAM的存内计算or近存计算架构,反而看到了优势...制程的要求也没有GPU那么高,SRAM这玩意还没有HBM如此受限。缺点也一大堆,散热冗余晶圆厂工艺支持以及软件生态,但国内现在没办法只能另辟蹊径...

当然了,对于北美客户来说,推理怪兽GB200就是最简单的选择。

今天先写到这儿,星际之门的外资行分析出来了,JPM和UBS看到了不错的解读,待会上传。还有安费诺的业绩分析稍晚一起在星球讨论。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI发展 强化学习 硬件需求 GB200 WSE架构
相关文章