原创 孔某人 2025-02-22 09:00 北京
我们原以为OpenAI Deep Research有80分,但实际在用户看来可能才刚满60分。
小短文一篇,发一个感慨。
连续线下给两个不太用LLM高级功能的用户演示OpenAI Deep Research(以下简称ODR)。
一个人是ChatGPT普通用户,平时在用o3-mini,而且可能被降智。
另一个人是几乎没用过任何LLM chatbot,直到R1开始之后才开始用一些,但也没有做什么工作相关的使用。
他们对于ODR的感受都是,这挺好的,后面准备去用,达到PMF。
第二个人我还给他演示了Grok3 DeepSearch、Gemini Deep Research、kimi的深度探索版、ChatGPT 4o的搜索、豆包的学术搜索。英文prompt和搜索目标也是英文圈(没有Grok3 DeepSearch检索中文不好的问题)。对其他这几个评价是:Grok3还能看,其他是垃圾。
我不知道读者是怎么评价ODR的。但一般LLM相关领域的人在给别人展示ODR的时候期待的反馈是“震惊”,我也是这么觉得和期待的。但实际上很难让圈外人觉得震惊/惊讶/aha。
可能我们都过于习惯过去2年的“烂LLM”和烂产品了,这可能拉低了我们的心理预期,但普通用户的心理预期并非这样。很多人之前以为的PMF可能根本就没到PMF。
ODR这种水平的质量才是第一个PMF的,这有多少人才能预判?由此来看R1才开始的爆火,别有一番不同的意义。
以这个标准,去开发或者玩那些开源复刻DeepResearch的项目,基本是在玩粪球,闭源产品很多也是在玩粪球。远远脱离了用户需求。
其他细分赛道的产品状态难道会比Deep Research明显好么?
缺乏PMF的产品,单纯只是因为产品太烂,而我们没有注意到这点。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 联系方式。
本文于2025.2.22首发于微信公众号