原创 孔某人 2025-03-12 20:34 北京
认知的转变速度不算快,但似乎也不算慢了
第一季度目前还没有过完,但感觉认知的变化已经很大。即使在1个半月前的2月1号时我发的文章中仍然表达一种悲观的解读倾向。
参考阅读:
1、零一万物 与 Minimax
虽然现在大家已经忘却,但零一万物官宣退出(大参数量的)模型层竞争,是在今年1月的事情。
当时整个AI圈一片哗然,虽然六小虎的那些已经放弃大投入炼丹早就被人各种猜测,但零一万物公开来谈这个事情的影响是完全不同的。
但放到现在,在旁观者来看这似乎更像是一种笑话。模型层正展现出一幅欣欣向荣之势,之前怀疑开源LLM快死的担忧也被R1这条鲇鱼成功续命一波。当然模型层的烧钱需求并没有减少,一些团队不得不退出是商业上的不得已,Mistral、Reka等差不多都选择了同样的路线。毕竟以DeepSeek持有的算力,以市场价租赁的话,可能要至少1亿RMB每月的租金,这庞大的成本即使是六小龙也是吃不消的。DeepSeek能够胜出从投入上来看似乎并不让人惊讶。
Minimax紧接着发声,提出了完全不同的战略方向:重视模型,弱化模型之外的方向。这与不少AI产品的战略方向有着明显的不同。而后续DeepSeek R1的爆火又印证了这点。它们在一起成功撼动了过去互联网时代的应用做事方式。
现在还能在X上看到一些流量视角很好的人在说“先卖出去,然后再开发”,到底哪边在这轮AI时代才是正确方向,还有待未来进行验证。
参考阅读:
聊MiniMax闫俊杰最近发言,兼谈如何进一步提升LLM的能力
2、DeepSeek R1
R1的影响是如此之大,需要单独一节讨论。这方面的讨论已经很多,本节更多聚焦在一些非共识的视角。
首先在技术上,R1向所有人展示如何去复刻o1模型,并且这个思路可以延续到RFT阶段,整个LLM生态的所有层面都可以由此收益。
第二,在开源模型方面也有重大影响。虽然业内人士一直对于R1的模型能力评价一般,低于公众的评价。但即使到目前为止,我仍然能够持续地听到R1在某些类型场景已经颠覆掉了之前方案的消息。R1虽然有着各种问题,但它确实很能打,到目前为止我们还并没有第二个开源模型能够在综合角度与之竞争。
很多人觉得现在很多组织私有化部署R1就是智商税,或者说满足上面要求,但从我目前收到的信息来看,可能R1私有化部署的价值并没有这么低。在不少场景用户可以感到R1模型相对于他们之前能用到的方案的明显提升,对用户来讲,就是实实在在的提升,而且用上这个模型只需要支付硬件成本,不需要支付定制开发的成本。R1已经在颠覆To B定制开发中的不少方案,现阶段的定制开发市场已经显著萎缩,有待于用户在习惯R1之后,重新找出那些他们仍然不满意的点。
这一轮很多在采购R1私有化部署的组织并不是之前的定制化开发的客户,从预算和内部决策方式的角度来说,他们未来一段时间主要买的AI产品也都是标品。甚至说R1的出现导致已有的介于定制化和标品之间的客户更偏向标品一些。市场被强化了一个认知:要购买前沿的AI标品。
第三,R1的出现大幅拉高了开源LLM模型的baseline,让海内外的很多模型厂都有点挂不住,有些的闭源模型仍然能保持领先,但领先幅度被削弱了。整个模型层由去年逐步转为封闭迟钝的状态重新进入到开源和追求智能的阶段,模型层之上的应用层和用户都显著受益于这点。未来半年,开源和闭源模型的进展都会显著加速了。不过模型层研发团队的压力一下被加大了很多,我祝愿他们的身体能撑得住。
第四,DeepSeek R1在国内的巨大流量导致的破圈和对很多圈外用户的成功影响,让很多人认识到这里的很多机会,也凝聚了很多共识。
参考阅读:
3、OpenAI DeepResearch
高质量的DeepSearch类产品是一个被低估的方向,之前虽然就已经有不少AI搜索产品,无论浅度搜索还是深度搜索。但OpenAI通过ODR(OpenAI DeepResearch)向大家展示了,什么才叫真的深度搜索,什么才算DeepSearch类产品的PMF。
大家对于ODR的接受度相对于其他还是稍慢的,但目前AI圈内都已经认识到DeepSearch类产品的价值。这是一个基于新技术方案的新发现的PMF方向。更难能可贵的是,这个产品形态To C和To B通吃。目前AI通用产品的真PMF的案例屈指可数,这些都让这个机会璀璨到无法无视。
从技术上来说,ODR标志着模型层公司基于RL的方案,更适合做通用Agent,这个的影响也十分巨大。
参考阅读:
OpenAI学会了如何构建Agent应用——评Deep Research
OpenAI Deep Research 团队采访 中文全文
DeepSearch RFT有望在To B场景替代RAG处理难query
4、其他模型进展
相对来说,本节的两个内容就不那么显眼了,但他们对于AI圈是重要的。
4.1、Grok 3
Grok 3证明了:通过堆算力来追上第一梯队玩家是可行的。第一梯队的玩家多了一个,这对于其他人来说善莫大焉。
此外,对于应用层和用户还有一些福利:
Grok 3的DeepSearch功能是目前ODR的唯一仍能维持PMF的下位替代,而且使用成本较低。不好说是幸运还是不幸,它目前不支持检索中文网页。
Grok 3的API是o1、Claude 3.7 Sonnet的有力廉价竞争者。
4.2、GPT-4.5
OpenAI从12月开始发布的所有主要功能都会经历先被公众鄙视,然后其价值被不断发现和传播的反弹过程。GPT-4.5也是这样。
GPT-4.5在不少方面很有优势,它已经是我现在会主要使用的几个模型/产品之一。而且我到目前仍然能持续收到有人又发现了它的一些优势能力的消息。
目前我的评价是:GPT-4.5成功的证明了上一代的scaling law仍然有效。不过不做RL强化无法充分发挥pretrain模型的价值,后面肯定还是要跟推理模型融合。
参考阅读:
5、Manus
随着底层模型的持续发展,通用Agent产品会间歇性的爆发,特别是这次正借着DeepSeek R1大火之后的渠道,用户心智对于新事物尚未封闭。
从可用性来说,Manus并没有太多的PMF。被C用户感受到PMF的主要是ODR类似功能。实际上这种功能早在Devin的时代就已经接近PMF了,只是Devin的定价太贵,而让很多人没有发现这点。
但Manus给目前死气沉沉的AI创业圈打了一个鸡血,又有一批资金入场,投向了Agent相关的团队。从这个角度来说,AI圈的人就应该感谢Manus赏饭。不知道R1开启的这个全民对AI接受度热潮能维持到什么时候。
OpenAI在3月12日把它Operator的模型CUA作为API发布了,又给通用Agent这条线填了一些柴。
我猜测这一轮通用Agent的热潮一样也会衰落。但历史告诉我们,做通用Agent靠的是等待底层模型的发展,在下一次模型大进展之前的半年多的寂静期里,要坚持住。
参考阅读:
A、结语
如果问我现在的判断,我认为是乐观的,未来半年肯定还有不少新模型出现,让更多场景变得能够实现PMF。
但“上层应用的壁垒在哪里”这个问题确实变得更加严重了,模型层的发展速度超过了应用层。应用层的厚度被模型层不断削弱,技术上越来越同质化。
参考阅读:
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 联系方式。
本文于2025.3.12 首发于微信公众号和知乎,知乎链接:
https://zhuanlan.zhihu.com/p/29805722387