虎嗅-AI 2024年11月15日
怎么理解Ilya说的“AI放缓了”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨预训练模型的现状,提到其预训练可能撞墙,分析了原因、影响及未来方向,包括经济投入、工程难度等方面,认为AI发展未停滞,仍有多种可能。

🌐The Information文章称Pre-Train模型预训练'撞墙',ilya也表达了相同观点。

💰预训练边际效果递减,存在经济投入产出比问题,会降低投入权重。

🚧工程实践难度大,如10万卡互联难,多模态数据边际效用降低等。

🎯未来需找到在何处scaling,如RL post train scale更多高质量reasoning数据。

梳理下时间线,The Information周日文章说Pre-Train模型的预训练“撞墙”了,昨天ilya接受路透采访,说了同样的话,原文如下:

The Information口碑参差不齐,但ilya也这么说,一石激起千层浪。

实际上预训练边际效果递减这事儿已经传了很久。7月份第一次传GPT-5训练不顺利,8月份开始流传“LLM语言模型预训练放缓,RL强化学习Post train优先级提高”,但前半句被当成“华人圈小作文”,觉得北美如火如荼,大家都在搞10万卡20万卡,预训练并没有停。

这期间,扎克伯格、Anthropic Dario、xAI都出来讲Scaling Law没有放缓。到9月o1出来,Sam Altman甚至提出预训练scaling+推理scaling,双发动机。 

到今天有结论了吗?个人觉得80%的可能Pre-Train预训练已经撞墙了,但并不是原理上,毕竟scaling law是个经验性定律,和摩尔定律一样,没到做出来你也不知道证伪与否,但:

1. 经济上,投入产出比的问题。假如你拿到10万卡,即20亿~30亿美金的预算,每个月的沉没成本是1亿美金,你会用在哪里?Pre-train、RL post train、inference,还是探索出其他新的scaling方法?

假如你在有限资源情况下, research上有新的发现,同样1亿美金/月的成本,能获得模型能力上更大边际提升,自然而然会降低pre-train的投入权重。就比如目前OpenAI在post-train上的算力分配已经超过了一半,这是个重要信号。

2. 工程实践上,难度太大。10万卡的互联就很难,何况20万卡、100万卡,crush多到爆炸……以及数据如果搞到几十T,多模态数据边际效用降低等等。

但这只是ilya说的前半句,后半句是:现在的关键,是找到在什么地方去scaling。什么意思?预训练显然是在scale参数+数据。而RL post train是在参数不显著增加的情况下,scale了更多高质量的reasoning数据。test-time compute是scale推理的次数。这可能就是ilya的“灵魂发问”,未来到底去scale什么因子?

我个人甚至怀疑现在还在鼓吹猛搞预训练的“领军人物”们,是在误导对手,将其往沟里带。但另一些人的发言,已经透露出了一些端倪,比如微软CEO Satya说的——预训练模型LLM已经“商品化/同质化”。也就是目前基于自回归训练出的LLM语言模型,依然只是个“原材料”“基座”,基于此再去实现更好的智能和应用,还有很多后续配方……

对算力的影响?

1. scale,本质上还是扩大算力。“大力出奇迹”依然是那根魔法棒,只是去“点”哪里的问题。因此算力还是离不开,只是把算力以什么方式、用在什么地方。

2. 超大集群真不一定需要,分布式集群也可以。但总量会越来越大。

3. 英伟达定义的Rack、超节点、superchip,依然需要。为什么?请参考之前文章《英伟达下一个“大杀器”》。

4. 训练上,GPU依然是最优选择。经过这件事,更加说明目前处于early stage早期阶段,算法本身远没有定型。auto-regressive机制下的transformer效率还有极大优化空间。CUDA的壁垒只会越来越高。

5. 推理上,GPU的壁垒,说实话我现在看不清了,已经来回摇摆过多次。包括端侧,因为搞不清楚未来端侧推理多少比例也会上云。

对应用的影响?

我倾向于乐观。Ilya既然这么说,说明他的新公司SSI已经找到了方法、方向,不然创什么业啊。

而让我乐观的另一个原因,是我认识一位华人AI创业的朋友,之前一直在水下非常低调。但他们很早就All in RL,大概1年前就告诉我“自回归这条路已经走到头了”,当时觉得也太激进了……到今天大家才回过神。但从这位朋友公司的进展来说,AI的发展,尤其是research根本没有放缓,而是看到了更多可能性。

因此总结来说,乐观一点,自回归不代表AI的全部,OpenAI也不代表AI的全部,老黄都说过LLM是英伟达多年押注涌现出的一个“application”罢了。为台积电节省了10亿美金的“计算光刻”、Palantir的AI产品AIP、Applovin的AXON,哪个是现在大火的LLM?都不是,但他们都是AI,且都在买GPU,都在scaling。因此pre train放缓不代表AI停滞了,已经停不下来了……

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

预训练模型 经济投入 工程实践 AI发展
相关文章