原创 孔某人 2025-04-10 16:42 北京
ODR目前不能用于替代专家。
ODR(OpenAI DeepResearch)自从2025.2.4发布到现在已经过去了2个月。在这段时间内大家对此也有不少思考和尝试,我个人的认知也有一些变化。今天又被人问了相关的问题,所以借此时间来重新整理一下。
1、回顾
现在来看区分DeepSearch与之前AI搜索产品的一个差别是:是否会进行多轮搜索,并且能够在探索过程中不断产生新的搜索请求。
1.1、前ODR时代
虽然ODR是这一轮让DeepSearch类产品广为认知的产品,但它并不是第一个该类功能的产品。
在我知道的范围内,我认为第一个知名的具有DeepSearch功能的产品是Devin。虽然Devin的产品定位是一个面向编程(尤其是基于Github平台)的通用Agent产品,并非定位在DeepSearch上。但实际上在它刚内测的时候,我就看到有一些VC使用DeepSearch类的query去测试它,并且得到了还可以的结果。Devin的开发公司Cognition Labs在发布时也提到了这种用法。从现在回看,在当时Devin在DeepSearch方面就已经接近于PMF,虽然它并不是为DeepSearch场景设计的。但由于Devin昂贵的定价和它并非定位于这方面需求等原因,让大众忽略了这点。
之后在国内的这方面知名产品是Kimi的探索版,不过由于Moonshot一直以来放量缓慢,该功能产生的影响也不够大。
Google Gemini在2024.12月发布了Deep Research功能,不过由于当时效果一般,也没能产生太大的影响。
剩下应该还有很多公开或私有的DeepSearch功能产品,很可能在Devin之前就有,但知名的产品就不多了,并没有造成太大的影响。
回顾一下,在VC发现Devin可以用于调研报告生成时,我并没有正确的认识到这标志着这种通用Agent产品用于DeepSearch类场景已经接近PMF。我当时只是把这当成是VC对它的一些奇怪用法而已,错失大半年的机会期。
1.2、ODR
ODR重新激活了DeepSearch类产品赛道。有两个主要原因:(1)ODR是最早的基于o3+RFT的产品,o3+RFT到底有多强是吸引人的问题。(2)ODR的效果确实有着显著的提高,大概是第一个踏入通用场景PMF的DeepSearch产品。
此外,从技术上来说,它是第一个使用以模型层思路为主体的通用Agent方案,并且明显超过纯应用层workflow的效果,是新一代通用Agent开发方式的代表。
1.3、后续其他
在ODR发布不久,Grok3系列发布,其中也包括了Grok DeepSearch。从效果来看Grok DeepSearch弱于ODR,但效果仍然属于基本能PMF的范围。
到了4月份,随着Gemini 2.5 Pro从exp版本转为preview版本正式放量,Gemini DeepResearch也接入了Gemini 2.5 Pro。目前在我看来,现在的Gemini DeepResearch效果也还可以,虽然不能说超过ODR,但考虑到它的价格我认为是值得使用的。Gemini 2.5 Pro标志着Google终于找到了LLM核心能力提升的正确路径,并拿出了第一个成功的案例,未来Gemini DeepResearch效果的提升可以进一步期待。
当然其他产品都是从“深度搜索”的角度来说的,它们作为更好的搜索工具已经PMF。但ODR的思考能力也很强,ODR给出的结果并不只是DeepSearch,ODR和DeepSearch类产品还不能完全划等号。
2、DeepSearch类产品进入PMF
我的观点是,优秀的DeepSearch产品已经PMF,但它的能力也有限。它更适合非专家调研某个领域,而不是服务于专家或替代专家。而且目前大家对于这种新的工具的能力并不习惯,或者说过于习惯于过去较差的搜索工具。长期来说,传统搜索、之前的AI搜索、DeepSearch类产品是在同一个大赛道内竞争的。
2.1、被低估的DeepSearch
一方面,目前的DeepSearch类产品还较贵,而且越便宜的产品的效果越差。另一方面,很多用户需求实际上仍然很难解决,光靠现在的DeepSearch产品还不能得到有效的解决。这两方面导致大部分人要么没有接触过DeepSearch产品,要么就觉得它跟之前的各种AI产品一样,有一点改进但不值得额外付费。
我建议把DeepSearch类产品当作一个更好的AI搜索产品,它在这方面已经很好,即使是在用一些很差的产品也比单次搜索的AI搜索产品要明显好。
目前DeepSearch类产品确实还较贵,一方面是由于更多的搜索API调用,另一方面是更多的LLM推理过程。后者在未来半年内是会显著优化的,可以让DeepSearch产品的使用成本继续降低。
我个人的使用体验是,DeepSearch类产品作为一种更好的AI搜索产品,可以明显地增加我的好奇心。之前可能一些东西会觉得搜起来很麻烦就放弃,但现在交给DeepSearch类产品搜一下的心理成本就很低,增加了我的总搜索量。我现在已经很少使用传统搜索了,更多是当作一个语义域名查询工具。传统AI搜索我也很少使用了,现在起手大部分都是直接找DeepSearch类产品,除非是一些我确定很简单很容易检索的东西,并且不想等太长时间。现在会被我考虑的是ODR、Gemini DeepResearch、Grok DeeperSearch,腾讯元宝虽然目前还没有DeepSearch类功能,但由于它能够访问公众号数据所以我也会使用。
2.2、被高估的ODR
虽然我一度对ODR的价值评价很高,但我目前对它的评价向下调整了一些。主要的原因还是因为DeepSearch类产品本身并不能替代去找专家进行访谈。ODR尚且如此,更不要说其他DeepSearch类产品。
目前ODR有几方面问题:
[1] 不少信息并不存在于可被检索到的互联网,所以很难指望通过ODR来获得媲美专家的认知。
[2] ODR作为一种Agent方案,目前仍然受到它自身技术方案能处理问题探索容量限制,需要探索空间过大的问题仍然不能有效解决。这方面参见 衡量问题被Agent独立解决的难度 。
[3] ODR的一些其他缺陷,例如对于时间限制的遵守不够好,在获取数据时对于数据完整性的保持不够好,ODR仍然会有一点幻觉问题(虽然相对其他产品更少),等等。
所以一次ODR适合的场景仍然有限,有些时候还是需要手工拆解任务,进行更多次的ODR请求来实现。在时间或者其他方面要求较高的场景,应该考虑使用专门针对这些需求特化的DeepSearch类产品。
3、未来搜索类产品的竞争
虽然目前传统搜索、AI搜索、DeepSearch类产品是不同的产品,用户心智认知上也不同。但我认为它们最终会融合并重新划分生态位。
在市场定位上,大致可以分解为2个主要的维度:使用成本、结果的质量。其中使用成本包括:每次均摊使用费用、平均等待时间等。目前3类产品在这个二维坐标下如下图:
每个产品都在朝着提升结果质量,降低使用成本的方向优化。未来所有这些产品会在这个空间中充分竞争,最后会重新划分出一些生态位,每个生态位上有一些产品。
当然在一些更细分的场景,特化产品也有自己的生态位,至少是一个暂时的生态位。
4、关于技术层面
本文并不打算认真讨论这类产品的技术方案,不过这里简单讨论一点。
在开放通用场景,推理模型+RFT是效果上第一梯队的标配。DeepSearch场景并没有通用的reward方案,我目前认为ODR是人工构建了query-参考答案的数据,在reward过程中对比获取的结果和参考答案(信息白名单和黑名单)来进行评分。
目前来看ODR的RFT是很高的,OpenAI的更新周期也并没有很快,并且在上线之后的更新中还出现了某些版本的效果倒退。
不使用RFT,仅使用推理模型的API,也可以构建DeepSearch产品并在某些领域偏安一隅。
除了智能方面,对于传统搜索技术的需求也并没有降低,例如网页解析、内容权威性评价等等。
DeepSearch类产品对于LLM模型的Context需求也较高,并且用户需求的Context比现在的方案更大。
DeepSearch类产品对于传统ToB的RAG场景也有很大影响。
参考阅读
OpenAI学会了如何构建Agent应用——评Deep Research 2.4
你以为能PMF的 可能并不PMF 2.22
只有DeepSearch类产品才能重新激发成年人的好奇心 2.24
OpenAI Deep Research 团队采访 中文全文 2.26
DeepSearch RFT有望在To B场景替代RAG处理难query 2.26
OpenAI Deep Research 仍然在进化 3.18
给医生的2C AI产品 OpenEvidence CEO访谈 中文全文 3.20
LLM对于时间的理解能力偏弱 4.4
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 专栏简介 及 联系方式 2024。
本文于2025.4.10 首发于微信公众号和知乎,知乎链接:
https://zhuanlan.zhihu.com/p/1893700753606021707