原创 Jason 2024-07-13 11:17 上海
由于迟迟没有GPT-5更多消息,最近一段时间其实非常无聊,直到昨天bloomberg和路透报道的所谓“OpenAI内部会议”,给一个5层AI分级和所谓“草莓”项目。虽然OpenAI内部如Q*、sora、草莓等等项目组实在太多(上百也不夸张),但关于模型训练的寥寥,因此格外值得关注。
看报道,几乎囊括了过去关于模型训练的各种传言, STaR就是之前Q*传闻的RL、“self-play”,“创建自己的数据”也就是合成数据,“模型已在非常大的数据集上进行过预训练之后,草莓用于模型的处理”,也就是post-training。按照之前那个“著名”报告的讨论,post-training还可以提升几个OOM。过去一段时间交流下来,几乎也都得到了业界的认可。
因此大家担心的GPT-5的所谓训练问题,可能并不是问题的核心。单个expert的上限和Sparse MoE的能力天花板问题,可能只是工程问题的一半,另一半被理所当然的称之为“RLHF反正还需要6个月时间”,但忽略了这一半可能带来的OOM提升。
放进下面这张图,似乎图谱更清晰:
OpenAI认为自己已经实现了L1,正在实现L2。要知道L2的定义要求很高的,“ a model that enables AI to plan ahead, reflect how the physical world functions, and work through challenging multi-step problems reliably” 如果GPT-5就实现L2,那的确是sam放的卫星“巨大飞跃”,但就算GPT-6实现,对于刚起步2年的行业来说也已经算很快了。
此外,从L1到L2是推理能力的提升,在目前已知的条件下(数据、卡、架构),scaling+某些post-training创新的确可能足够实现L2。但从L2到L3,是基于推理能力去嫁接现实世界工具。而agent之前就有不同路线的讨论。比如吴恩达在红杉的演讲,认为模型只解决了内部性问题,通过一堆工程化方式可以解决外部性问题,也就是system1和system2,进而使其也具备“反思、工具使用、规划planning、multi-agent协作”等。但这条路不一定需要巨大模型。这是用更多的工程化去弥补推理能力的不足,虽然上限可能的确很高。
那么从OpenAI的角度,假如有一天领先行业实现了L2,他会做什么?从目前行业的进展来看,模型尤其是scaling本身已经没有太多秘密(虽然工程难度依然巨大),模型的领先无法带来moat,就比如我们常见互联网公司的护城河是“躺着也能赚钱”,显然模型的领先无法让你“躺着赚钱”,只是个时间优势,甚至“跟随+后发”策略更省体力(算力)。夸张点说,一篇paper发出来或者几个人倍挖走,基本就没有秘密了(虽然执行的工程壁垒依然很高)。因此合理推断,OpenAI认为L2已经在“视野范围内”,只是时间问题(和卡的问题),但想建立持续壁垒和护城河,一定是走到L3。基于L2的领先优势,快速建立L3,符合其最大利益。这也解释了为什么我们经常听说OpenAI“目前一半的精力都在搞应用、agent,blablabla”...当然这里面也有其他因素,比如所谓的continuous learning、graph retrieval、蒙特卡洛树搜索等等,我们之前提的最多的是“超级应用=超级模型”,这里面的关系说不定比大家想的更为重要。
至于L4和L5,太需要想象力了,真到了L5,感觉已经是super intelligence了...
难得有个新鲜事,随便写写,欢迎行业内大佬们多多指教
(完)
声明:本文内容仅代表作者个人观点,与任何公司立场无关,且不作为投资建议。文章内容仅作参考,不能作为任何投资依据。