“草莓”是什么

原创 Jason 2024-07-13 11:17 上海

由于迟迟没有GPT-5更多消息，最近一段时间其实非常无聊，直到昨天bloomberg和路透报道的所谓“OpenAI内部会议”，给一个5层AI分级和所谓“草莓”项目。虽然OpenAI内部如Q*、sora、草莓等等项目组实在太多（上百也不夸张），但关于模型训练的寥寥，因此格外值得关注。

看报道，几乎囊括了过去关于模型训练的各种传言， STaR就是之前Q*传闻的RL、“self-play”，“创建自己的数据”也就是合成数据，“模型已在非常大的数据集上进行过预训练之后，草莓用于模型的处理”，也就是post-training。按照之前那个“著名”报告的讨论，post-training还可以提升几个OOM。过去一段时间交流下来，几乎也都得到了业界的认可。

因此大家担心的GPT-5的所谓训练问题，可能并不是问题的核心。单个expert的上限和Sparse MoE的能力天花板问题，可能只是工程问题的一半，另一半被理所当然的称之为“RLHF反正还需要6个月时间”，但忽略了这一半可能带来的OOM提升。

放进下面这张图，似乎图谱更清晰：

OpenAI认为自己已经实现了L1，正在实现L2。要知道L2的定义要求很高的，“ a model that enables AI to plan ahead, reflect how the physical world functions, and work through challenging multi-step problems reliably” 如果GPT-5就实现L2，那的确是sam放的卫星“巨大飞跃”，但就算GPT-6实现，对于刚起步2年的行业来说也已经算很快了。

此外，从L1到L2是推理能力的提升，在目前已知的条件下（数据、卡、架构），scaling+某些post-training创新的确可能足够实现L2。但从L2到L3，是基于推理能力去嫁接现实世界工具。而agent之前就有不同路线的讨论。比如吴恩达在红杉的演讲，认为模型只解决了内部性问题，通过一堆工程化方式可以解决外部性问题，也就是system1和system2，进而使其也具备“反思、工具使用、规划planning、multi-agent协作”等。但这条路不一定需要巨大模型。这是用更多的工程化去弥补推理能力的不足，虽然上限可能的确很高。

那么从OpenAI的角度，假如有一天领先行业实现了L2，他会做什么？从目前行业的进展来看，模型尤其是scaling本身已经没有太多秘密（虽然工程难度依然巨大），模型的领先无法带来moat，就比如我们常见互联网公司的护城河是“躺着也能赚钱”，显然模型的领先无法让你“躺着赚钱”，只是个时间优势，甚至“跟随+后发”策略更省体力（算力）。夸张点说，一篇paper发出来或者几个人倍挖走，基本就没有秘密了（虽然执行的工程壁垒依然很高）。因此合理推断，OpenAI认为L2已经在“视野范围内”，只是时间问题（和卡的问题），但想建立持续壁垒和护城河，一定是走到L3。基于L2的领先优势，快速建立L3，符合其最大利益。这也解释了为什么我们经常听说OpenAI“目前一半的精力都在搞应用、agent，blablabla”...当然这里面也有其他因素，比如所谓的continuous learning、graph retrieval、蒙特卡洛树搜索等等，我们之前提的最多的是“超级应用=超级模型”，这里面的关系说不定比大家想的更为重要。

至于L4和L5，太需要想象力了，真到了L5，感觉已经是super intelligence了...

难得有个新鲜事，随便写写，欢迎行业内大佬们多多指教

（完）

声明：本文内容仅代表作者个人观点，与任何公司立场无关，且不作为投资建议。文章内容仅作参考，不能作为任何投资依据。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签