原创 孔某人 2025-03-03 16:28 北京
走进下一代LLM应用设计的新世界
本文还有另一个标题:《站在下一代LLM应用设计的门口(2)》,也就是回答 站在下一代LLM应用设计的门口 中当时还不清楚的一些问题。没读过该文的读者可以先阅读那篇文章,再来对比这篇。不过最近两个月我写的内容不少,要跟上我的思路需要补的阅读量压力越来越大了。
本文同样是一篇短文,罗列了几个碎片的视角。
1、回顾2024.12-2025.2
现在翻看我2024.12时候的文章,感觉恍如隔世,在当时对未来技术走向还看不清楚。
对于LLM生态的人来说,过去3个月有几个主要的事件:
OpenAI的12月马拉松发布会,虽然过程很拖沓,但回顾来看有两组重要的发布:o1正式版+RFT、o3的预告。
DeepSeek R1的发布和爆火,大家终于有了一个高性价比的推理模型可用,以及由此带来的RL post-training/RFT方案复现热潮。
OpenAI发布o3+RFT的Agent——Deep Research,并宣布o3未来不再独立发布,只作为Agent的一部分。而RFT截至目前也未开放。
Grok3系列的发布,包括Think模式、Deep Search功能,目前模型效果已经能够跻身第一梯队。
Claude 3.7 Sonnet的发布,支持thinking模式,并进一步提升了编程相关能力。
GPT-4.5的发布,历史上最大规模的前沿LLM模型。而目前对它的能力认知还很不足。
年后各家的竞争也开始愈发激烈,未来1-2个季度我们可以期待各家的一波新模型产品。
其他非产品的发布方面也有不少重要的信息,这里就不再一一列举,有兴趣的读者请翻我的公众号历史文章列表。
2、推理模型、RFT、通用Agent
在OpenAI发布RFT时大家还懵懵懂懂。但到目前为止,已经有不止一家拿出了自己的推理模型方案,它的价值已经被充分验证。当然从模型层的人来说,这件事至少在o1-preview发布时就已经启动了,所以才能在现在这个时间集中的拿出成品。
这是一次模型层技术方案的中等规模换代,甩下了一批模型层公司。
而o3+RFT的Deep Research则进一步证明了这种模型层的方式可以继续用来做通用Agent应用产品。既然这个能力这么通用,商业价值这么高,我觉得能够理解为什么OpenAI不独立发布o3模型,也迟迟不上线RFT了。
对于应用场景来说,无论是使用最新的推理模型,还是使用RFT进行领域定制,都是刚刚打开的新空间。我现在感觉2025年大概从技术突破上就是这些了,我视野中感觉没有太多的“战争迷雾”了。剩下的主要工作都是更多地应用这套方案进行攻城略地。
不只是在LLM领域,RL post-training是重要的。在RL领域,这一进展也是重要的。
相关阅读:
Reinforcement Fine-Tuning—12 Days of OpenAI: Day 2 中文全文
OpenAI Deep Research 团队采访 中文全文
3、Prompt Trick和SFT已经衰落
随着迈入推理模型时代,过去的Prompt Trick已经变得越来越不重要了。说清楚话就能获得期望的结果。甚至对于GPT-4.5来说,似乎很难描述清楚的场景也可以拿到不错的效果。
SFT在技术上虽然是简单的,但在很多场景下其数据的合成成本仍然是很高。而RFT给了我们一个新的可能性,以计算量换数据,得以让技术方案能够更加scale到不同的场景,并且还提高了上限。从使用的角度来说,RFT并不是替换SFT,而更像是一种半自动的生产SFT数据的方式。
即使是像角色扮演、文学创作等方面似乎很难构建“任务是否被解决”型的reward的领域,GPT-4.5也也让我看到更多(相对过去)以更低成本进行数据合成的可能性。
4、模型层post training与应用层的边界正变得模糊
以OpenAI Deep Research为代表,标志着模型层公司才是真正的通用Agent构建者,而应用层公司在过去的近2年之中并没有能够成功占领这个位置。
但应用层公司也并非坐以待毙,RFT和由DeepSeek带起来的又一轮开源模型风潮让应用层公司也可以以更高的ROI进行开发,这其实也相当于在反向进入到模型的post training阶段。
模型层和应用层的边界正在变得模糊。
而夹在中间的中间件层的处境则很尴尬,新一轮技术范式对于之前单纯调用模型推理API的方式是一种部分颠覆。基于RFT的相互融合方案需要新一代的中间件设计,而之前的中间件设计很可能不宜直接迁移。这对于中间件公司也是一轮洗牌,已经PMF的中间件公司不会死,但中间件未来的市场份额是给新一代方案原生的中间件公司的。
应用层之前的认知优势在新一代方案下,被溶解了一部分,模型层和应用层似乎又重新回到同一个起跑线上,虽然各有优势,但综合差距似乎没有那么大了。
相关阅读:
DeepSearch RFT有望在To B场景替代RAG处理难query
5、模型的成本优化速度在放缓
从宏观整体角度来说,实现同样效果的模型最小成本在降低。但对于每个具体模型来说,其实自发布起就很少下降。大部分的成本优化是通过发布一个更新更好更便宜的模型来实现的。
而当下,各家模型公司更多把资源投入到攻坚AGI、提升最强模型能力上限的方向,而对于性价比模型的投入似乎减少了。(这里要抠掉Gemini,Gemini过去一段时间都在玩Flash规模的模型,而Pro版本模型一直都停留在测试版状态,不能正式发布。就好像Google才是算力被制裁了的公司,只能在迭代一些小模型玩玩。)
目前的o1正式版和GPT-4.5都是很好的模型,但它们大幅拉高了前沿模型的价格。Claude 3.7 Sonnet虽然没有涨单价,但由于可选的思考过程的引入,实际使用成本还是会上升。
大家期望的那种每过多少个月,模型API成本下降多少的期望好像短期很难实现了。不过仔细想想,这个事好像本来不太常见。虽然可以换到更小参数量的模型,但很多时候也不能直接平替,还是需要一些workflow更新适配的研发成本的。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 联系方式。
本文于2025.3.3 首发于微信公众号和知乎,知乎链接:
https://zhuanlan.zhihu.com/p/27635688988