原创 孔某人 2025-02-18 20:46 北京
本文讲的是我的技术直觉判断。如果你对我的直觉判断感兴趣,那么本文很契合你;如果你是在寻找逻辑、事实或者是什么别的东西,那么本文会让你失望。
这个判断是在我最近粗略回顾过去半年的技术发展和我的认知变化后产生的。人的认知转变需要过程,从2024.9 o1-preview发布后认知就在逐步转变,不过主要的转变是在过去2个月。
与之前的 o1正式版 就是我心中的GPT-5 一样,可能本文的观点并没有新东西,但看到别人说这样的观点,和自己说这样的观点,意义是完全不同的。
1、本文的奇点是什么?
本文说的奇点是指:
目前的LLM(>= o1 Pro)的能力已经可以与人进行对等的合作,而不是像之前我们构建LLM应用时那种要照顾一个低幼小朋友的感觉。
Post-training阶段的RL和RFT可以根据pretrain阶段的语料中学到的微元能力自动组合出解决问题的完整方式,而且这个过程不再需要之前SFT那样的完整过程样例,而是只明确最终标准就好。
未来有一段可预见的更快速的发展阶段
就是之前经常会有人举的那个图的感觉:
首先这个奇点说的更多是指技术方案已经出现,不是说已经有模型达到了人类水平。不过其实o1 Pro和OpenAI Deep Research(o3的Agent)作为实例已经感觉很接近了。即使没买过ChatGPT的Pro会员,大家应该也从DeepSeek R1的表现中能够一窥这一代技术能力的潜力。
我认为的这个奇点的标志是什么呢?
对于模型层的人来说,我认为这大概是2024.9 o1-preview的发布。不确定在这之前模型层的群体中是否就已经有更早的共识标志。
但对于模型的使用方来说,这个标志应该是:o1正式版的发布,以及一同发布的RFT。从使用体感来说,o1-preview给我的感觉是“原来它能做了一些我也做不到的事”,而o1就像是消除了其中瑕疵的完美版,我愿意去放心相信它的结果,而不是在投产前小心谨慎地审视一个新人的工作结果。
(另外,如果你相信这个曲线是指数的话,指数曲线有个特点是无记忆性,即你在未来的每个时间向前回顾,它看起来都是这样的。)
2、人的认知转变需要过程
虽然说我认为标志是o1正式版的发布,但这并不代表说我当时对它就有足够高的评价。如果读者对比本文与我当时的文章,就能更感受到这中间程度上的差异。
在o1正式版发布之后,又经过了Apollo Research的安全报告,Ilya Sutskever和Bob McGrew观点的佐证,Antropic的安全报告,对o3的思考,对于应用层构建方式的思考等等。
但最后,让我得到二次确认,并有更多细节让我看懂的,是DeepSeek R1的复现成功,以及它的技术报告。(当然,作为其核心的GRPO在2024.2就已经发布了。)思考的结果就是我写的 语义计算机中没有Token 。(不过这篇文章的标题和写作还不够好,还容易与之前已有的语义计算相混淆,未来可能会找时间重新写一下其中的观点。)但在此文写作的一月中,你问我这是否就是LLM的奇点,我可能也不会给一个肯定的回答。
这后面还经过了:对于R1效果的进一步确认,对于OpenAI Deep Research的认知,对于R1技术方案的深入探索,以及使用GPRO做RFT的尝试,以及再到高等动物的选择性学习过程的对比。又过去了一个月,现在我确实觉得这可以称作为LLM的奇点。
经过了2个月相对密集的各种信息和进展的冲击,以及我的思考,认知终于有了足够大的变化。在我不大的观察范围内,我并没有看到谁的认知转向比我还大。有一些是跟我大致同步的。
(对我的思路转变过程有兴趣的读者请到公众号考古历史文章,有些文章没有在知乎上发。)
A1、附录:代表目前LLM现状的模型/产品
如果希望了解目前前沿模型的能力,请在以下产品中选择尝试:
Tier1,OpenAI Deep Research,它是o3 Agent,需要ChatGPT Pro会员,并且没被降智
Tier2,o1 Pro mode,需要ChatGPT Pro会员,并且没被降智
Tier3,o1正式版,需要ChatGPT Plus会员,并且没被降智
Tier3,Claude 3.5 Sonnet
Tier3,DeepSeek R1
Tier3,Gemini 1.5/2.0 Pro(Gemini的能力较多,多模态和长上下文方面是Tier1的)
(待发布)Grok 3,Grok 3 reasoning
对于纯STEM(科学Science、技术Technology、工程Engineering、数学Mathematics)和编程场景,还可以考虑:
o3-mini(支持搜索),需要ChatGPT Plus会员,并且没被降智
这些产品优势各有不同,体验了一个不代表体验了其他的。
已经不能反映前沿模型能力的模型和产品:
GPT-4o(仍有某些场景还可以,但大部分场景已经被超越)
LLama系列
DeepSeek V3
国内其他所有模型厂的所有模型(包括Qwen、Doubao、百度、智谱、阶跃星辰、MiniMax、百川智能、月之暗面、零一万物)
除了OpenAI之外的所有Deep Research产品、深度探索产品
当然本节的列表非常具有时效性,我相信Qwen系列很快能跟上来,Doubao在未来半年也很有希望跟上来。
A2、附录:短期展望
目前智能最强的模型是o3,但OpenAI已经表示不会开放o3正式版,未来的o3模型不再独立发布,而是会像是OpenAI Deep Research一样作为Agent的一部分。GPT-5已经不再是一个模型,而是包含o3在内的一个Agent集成产品。在这之前还会发布一个GPT-4.5,这更像是上一代模型的收尾版本。
(来自 https://x.com/sama/status/1889755723078443244)
o3+针对特定场景的RFT 是短期内能看到的最强技术方案,但RFT的正式发布还没有具体时间,o3模型也不再单独发布。不知道未来哪家会在这条技术路线上最快推出API方案并公开可用。
xAI发布的Grok3看起来已经很接近o3,不过目前还在放量中,这大概是未来短期我们能看到的最接近o3的模型。不过xAI暂时还没有RFT和深入构建Agent产品的迹象(还不确定Grok Deep Research是怎么做的)。
Claude 4已经开始造势,是一个模型同时支持推理模式和非推理模式。Grok3看起来也很像是这样一个模型两种模式的状态。OpenAI合并o系列和GPT系列之后也应该是这个状态。
Gemini在过去一直都进展缓慢,很多工作都是在小参数的flash模型上玩。无法预估他什么时候才能完成Gemini 2.0 Pro thinking版本,但我估计它快不了。LLama还看不到下一步的公开信息,无法判断。
从国内来说,短期大概是DeepSeek与Qwen竞争第一,Qwen的QwQ其实发的挺早,但现在泯然众人。剩下还“活着”的几家都会发reasoning 模型,但效果就得等发出来看了。
现在应用层也并非完全受模型层block,基于已有的上代开源LLM+RFT也有挺大空间,虽然算力需求比SFT大了不少,但还是勉强可以做一些的。这方面其实更需要独立的RFTaaS平台来分摊成本,但什么时候才能看到可用的平台产品还无法确定。
又一轮类似2023年混乱时代开始了。
B、结语
感觉过去2个月里,我写的不那么客观/逻辑性的文章,或者说是感性的文章似乎变多了。
当然文章只是我的一个侧面,我的生活中也有很多感性。但让我觉得值得写出来的感性没有那么多,而现在看起来这些正在变多。我似乎越来越难用推理来给读者描述我所看到的未来了。
做早期投资的人很熟悉两句话:因为相信所以看见;因为看见所以相信。而我只能给大家展示一些我所相信而看到的东西。那些因为看见所以相信的内容,是在未来出现在回忆录里的,就像我现在回顾过去的认知一样。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 联系方式。
本文于2025.2.18首发于微信公众号和知乎,知乎链接:
https://zhuanlan.zhihu.com/p/24622760268