神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:各家公司推出的AI 研究工具吹得天花乱坠,但实际用起来却常常“翻车”。本文用真金白银换来了一份超详细的“避坑指南”,教你如何调教 AI,让它从一个“啥都懂点儿的实习生”变身为你真正的“专属分析师”。文章来自编译。
ChatGPT 深度研究(Deep Research)功能的发布,对我来说简直是个“顿悟”时刻。作为一个非技术出身的人,这是我第一次看到 AI 把我工作中最核心、也是我最擅长的部分,从头到尾都给自动化了。
以前我得花好几个小时手动去谷歌上搜东西,然后整理结果,现在几分钟就能拿到一份 20 页的报告。太震撼了。
不过,跟所有 AI 工具一样,最初的兴奋劲儿一过,我就发现这玩意儿产出的结果其实挺糙的。来源可疑、方法论站不住脚、格式乱七八糟跟一堵墙似的文字——你能想到的毛病,我在深度研究报告里都见过。
潜力是明摆着的,但要说真能像宣传的那样,成为一个“随时待命的麦肯锡分析师”,似乎也不完全准确。至少,你得花点功夫去了解和解决这个工具的弱点才行。
在摸索的过程中,我也在网上找过一些攻略。但让我惊讶的是,大部分攻略都太过泛泛而谈了,根本没法落地。
所以,我决定自己写一篇关于 AI 研究智能体的终极指南。
不吹不黑——全是我真金白银换来的经验教训,告诉你什么方法管用,什么不管用,以及怎么才能得到最好的结果。里面还包含了实际的并排对比案例,这样你就能直观地看到我提议的最佳实践到底有多大作用。
我们会涵盖以下内容:
我是如何看待深度研究功能的核心应用场景以及它的局限性的
哪种 AI 研究工具最适合做什么任务(包括比 200 美元的 ChatGPT Pro 套餐更便宜的替代品)
如何写出高效的提示词,让你每次都能得到顶尖的输出结果
如何从最终报告中榨取最大价值
我是如何看待用于研究的 AI 工具的
AI 研究代理这东西非常有用——不管你做什么工作。“研究”这个词听起来可能更像是学术圈或者某些初级岗位的活儿;但你仔细想想,我敢打赌你肯定也花了不少时间在这上面。
比方说:
作为产品经理,你在研究竞争对手的产品
作为创始人,你在学习关于销售税、工资单或者股权结构表计算的知识
如果你是做业务运营(BizOps)的,你的整个工作基本上就是每周快速上手一个新话题,以便能做出成绩,然后接着搞下一个。
AI 研究智能体能帮你搞定所有这些事,甚至更多。而且它们不只在工作上有用。
根据我的经验,高级的应用场景有这些:
AI 可以把完成这些事情所需的时间减少 80% 到 90%。但是:千万别在没有监督的情况下把这些任务完全外包出去。如果你盲目地把输出结果用在任何重要的事情上,你肯定会吃大亏。
这些 AI 智能体,至少在目前的版本里,需要你手把手地教才能生成靠谱的东西。而要扮演好这个关键的“管理者”角色,你就得知道该注意些什么。
需要注意的五大问题
问题一: AI 智能体不会主动询问它需要的背景信息
正如你在下面的详细比较中会看到那样,大多数 AI 研究工具不会主动询问背景信息,只会利用你在提示词里提供的信息。
就像一个急于求成的分析师,它们会直接开始干活,即使它们根本不知道你到底想用这份报告做什么。
而且就算这些智能体真的问了上下文信息(比如因为你让它问了):
问题并不总能涵盖所有重要的方面,而且
如果你的回答不够充分,它们也绝不会追问
👉 怎么解决:主动提供尽可能多的关于你的情况和你的目标的背景信息,并告诉智能体如果还有什么不清楚的就来问。
问题二: AI 智能体不知道如何正确处理信息来源
我观察到,默认情况下(也就是说,除非你告诉它们怎么做得更好), AI 智能体在处理信息来源方面有几个主要问题:
☝️ 过分依赖单一来源,导致评估有偏见或视野狭窄
🧩 混搭数据源时不突出注意事项,搞出一个逻辑不通的拼凑分析
🗑️ 使用低质量来源(比方说,来自Reddit 匿名用户随便的一个帖子)
📆 过时的来源(比方说,即使在变化很快的领域,也使用 5 到 10 年前的数据)
如果你不留神,最后你得到的会是一份看起来很花哨但基础不牢的报告:
👉 怎么解决:特别是对于数据量大的报告,你必须 1)指导它优先考虑哪些来源,以及 2)要求它清晰地展示来源是如何被使用的。
问题三: AI 智能体无法访问大量高质量的数据源
深度研究功能无法访问付费来源。然而,基于你所研究领域的不同,很多好数据恰恰就放在那些地方。
比方说,对于很多 B2B SaaS 领域的分析,你可能想利用来自领英 API 或者市场研究公司的数据。目前,要做到这一点,你需要先下载这些数据集,然后再让 AI 能够访问它们。
此外, AI 智能体显然只能研究网上能找到的东西。如果你在研究一个微妙、小众的话题(比如,一个复杂的法律问题),这就成问题了。
👉 怎么解决:在这种情况下,最好把深度研究看作一个能帮你准备专家访谈的工具(这样你就知道该问什么问题),而不是一个能给你提供建议的端到端解决方案。
问题四: AI 智能体有时候判断力平平
深度研究报告的推理质量差异很大;不同查询之间,以及不同工具之间(比如 ChatGPT vs. Gemini)都有差异。有时候我会被深深折服,有时候又感觉像在审阅一个高中实习生的作业。
另外,你会发现这些研究智能体常常只是复述它们找到的某个观点(比如,在某篇博客文章里),而不是真正去深入思考一个问题。换句话说,你把判断力外包给了网上的某个路人甲。
👉 怎么解决:
最重要的是,选择最强大的工具(下面会详细说)
确保你提前审查研究计划,并提供关于方法论的详细指示。
对初稿提出批判性反馈,解决存在的任何明显问题(那怕犯了错,AI 的态度也总是很好的,乐于修改)
问题五:默认的输出格式通常不太好用
默认情况下,你从 ChatGPT 和 Gemini 那里拿到的研究报告都是一大坨文字,很难看懂。
当然,你可以让 AI 做个总结;但在某些情况下,你确实想深入了解。你只是希望信息以一种易于理解的方式呈现出来。
👉 怎么解决:给出关于你希望报告如何组织和排版的指示(比方说,加上“太长不看版”,使用概览表格等)。
好了,牢骚发够了;我们来谈谈你能做哪些具体的事情,来最大限度地利用这些工具。
首先,我们会深入挖掘不同工具的优缺点,这样你就知道哪个最适合你的应用场景了
然后,我们会过一遍可行的最佳实践,让你每次都能得到高质量的输出结果
哪个 AI 研究工具最好?
你可能听说过 ChatGPT 深度研究,但它不是市面上唯一的工具。过去几个月,一大堆其他公司也发布了他们自己的版本。
比较有名的有:
Gemini Deep Research
Perplexity Research
Grok DeepSearch
Claude Research
乍一看,它们都差不多。你把一个研究提示词扔进聊天窗口,5 到 30 分钟后,你就能得到一份详细的多页报告。
然而,魔鬼在细节中。我针对几十个应用场景对这些工具进行了广泛的测试,它们的研究方法和输出质量存在巨大差异:
注意:我在这里比较的是模型的基础版,这样你就知道作为免费用户你能得到什么了。我会在最后的一个单独部分讨论付费“高级”模型的性能差异。
⭐ 总体推荐
太长不看版:
ChatGPT 深度研究仍然是目前进行真正深度研究的最佳工具;目前没有其他工具能在深度和严谨性上与之匹敌
Perplexity 非常适合用来对新话题做简短、结构清晰的概述
ChatGPT 的两个最大弱点是 1)它选择来源的方式,以及 2)它会生成格式很差的大段文字。
不过,这两点都是默认行为,可以通过正确的提示词进行调整;我们将在下一节中详细讨论。根据我的经验,归根结底就是:
你可以要求 ChatGPT 使用不同的来源或美化报告,但你很难通过提示词让其他工具变得更严谨。
不过,200 美元的 Pro 套餐对个人来说显然贵得离谱,而且免费版和 Plus 版的使用限制也很低。因此,你可能需要根据这里讨论的优缺点,选择另一个工具作为你的“日常主力”,然后把 ChatGPT 深度研究“留着”用在最重要的任务上。
如果你已经有了心头好,可以随时跳到关于提示词最佳实践的部分。
💰 价格与限制
🏆 冠军:Grok;🥈 亚军:Perplexity
Grok 和 Perplexity 都挺慷慨,有免费套餐,每天可以进行多次查询,所以是那些想在不订阅的情况下使用深度研究功能的人的首选。
相比之下,ChatGPT 和 Gemini 的免费套餐每月都有相当严格的限制,而 Claude 的免费套餐根本就没有研究功能。
要是 Claude Research功能真的好到能这么自信就好了
作为重度用户,你最终会面临是否应该升级到付费套餐的问题。除了使用限制大大提高之外,据说你还能获得更好的模型和更高质量的输出。
我们将在本节末尾讨论这是否会带来显著差异(剧透:并不会)。
🤔 研究规划
🏆 冠军:Gemini;🥈 亚军:ChatGPT
特别是当你没有写一条带有详细指令的长提示词,告诉智能体你希望它如何进行研究时,在它开始之前了解它打算做什么就至关重要了。
比方说,如果你要求比较软件工具,你可能想知道它打算用什么标准来评估它们,这样你就不用等 5-10 分钟才得到一个不着边际的东西。
Gemini 是唯一一个默认分享研究计划的工具。其他的工具,ChatGPT、Claude 和 Perplexity 通常是你要要求的时候才会提供:
另一方面,Grok 往往会忽略我的要求,直接开始研究 🤷。
注意:为了让智能体分享研究计划的几率最大化,请同时在 1)初始提示词中和 2)回答后续问题时都提出要求。
🙋♂️ 上下文信息收集
🏆 冠军:ChatGPT;🥈 亚军:Claude
ChatGPT 深度研究是唯一一个能可靠地询问 3-5 个上下文问题的工具,即使你没有明确告诉它这样做。而且,问题通常都能切中要害(即,类似于一个厉害的分析师会问的问题)。
其他的工具在你提示词里要求时也会做,但不太可靠。以下是我发现效果不错的两个方法:
对于 Gemini,在智能体分享研究计划后,重复你的请求,让对方补充缺失的上下文信息
对于 Grok,在你的提示词中加入一个要求,让它解释 [XYZ] 如何适用于 [我的情况/我的公司]。这样,它有时会意识到需要额外的信息才能做到这一点
🧠 推理与判断
🏆 冠军:ChatGPT;🥈 亚军:Perplexity
推理和判断是一份好研究报告的基础。
如果你不同意智能体使用的方法论或它得出的结论,那么报告再长再漂亮都无关紧要。
ChatGPT 在这方面是当之无愧的赢家;它不仅表现出强大的判断力(比方说,在选择评估标准或得出结论时),而且还能给出有力的建议,并清晰地说明它是如何得出该观点的。
所有其他工具(除了 Perplexity)在研究方法上都经常做出可疑的选择,而且通常不清楚它们是如何得出建议的。因此,如果你打算将输出结果用于任何重要的事情,就必须非常仔细地阅读报告,并提出后续问题。
📖 全面性
🏆 冠军:ChatGPT;🥈 亚军:Gemini
ChatGPT 和 Gemini 生成的报告是目前最全面的;不过,ChatGPT 通常会在重要领域深入挖掘,而 Gemini 则经常添加一些提示词里没要求的通用“废话”。
ChatGPT 庞大报告的明显好处是,对于复杂的话题,它比其他工具会考虑得更详细。
但这也意味着你需要添加指令来改善报告的结构和格式(比方说,为每个部分添加摘要),及/或如果你需要快速获得洞见,就需要让 AI 对这些报告进行总结。我们下面会深入探讨这一点。
其他三个工具的问题正好相反;它们的报告算不上真正的深度研究。哪怕它们参考了几十个(Claude 甚至会参考几百个)来源,输出结果读起来也像个“太长不看版”,所以不要指望能得出很多微妙、详细比较或超实用的指南。
你可以通过要求它们“格外彻底”并“目标至少 [X 千] 字”(特别是对 Perplexity)来获得稍微详细一点的报告,但达不到 ChatGPT 的水平。
✨ 报告结构与格式
🏆 冠军:Perplexity;🥈 亚军:Grok
Perplexity 和 Grok 默认都会生成易于阅读的报告,并且很好地利用了项目符号列表和概览表格。如果你想在不调整提示词的情况下快速获得格式良好的洞见,这些工具就适合你。
如前所述,其他工具需要在提示词中给出指导,才能生成易于解析的内容。
📚 来源
🏆 冠军:Perplexity;🥈 亚军:Claude
对于深度研究的来源,有几点很重要:
选择优先考虑什么(类型)的来源是否容易
考虑了多少来源(以获得一个平衡的、包含广泛观点和数据点的概述)
研究智能体选择的来源质量
追踪引用的难易程度(这样你就可以核对论点背后的数据)
默认情况下,ChatGPT 在这些方面(除了引用)都不太行。不过,在实践中这也不是个大问题,因为 1)它的摘要和要点通常仍然很到位,而且 2)它对反馈的反应非常迅速。
比方说,当我要求提供主要欧盟市场的市场规模概览时,第一个版本使用了可疑的方法论和数据源。但我通过做两件事,在 5 分钟内就得到了一个好得多的版本:
1. 要求 ChatGPT o3 编制一份用于市场规模估算的最佳数据源列表:
2. 要求深度研究功能基于此重做报告的那一部分,并突出显示不同信誉良好的来源数据不一致的地方(+ 提供可能的原因假设)。
付费版值得买吗?
在试用了一会儿深度研究功能后,你可能会想:昂贵的付费版值得吗,还是免费版就够了?
别担心;我都买了一遍,这样你就不用买了。
太长不看版:在我看来,如果你是重度用户,只有 ChatGPT 的付费版值得。所有其他的付费版只有在你也用这个账户做其他事情时才有意义。
这里主要有两个考虑因素:
1. 请求数限制
Perplexity 和 Grok 在免费版中提供了充足的研究额度,所以对大多数用户来说升级不是必须的。
Gemini 的重度用户很可能会达到上限,而 Claude 根本不提供免费的研究功能;但在我看来,这种情况下你最好还是用 ChatGPT。
2. 输出质量
在付费套餐的广告中,你会看到一些相当夸张的宣传,比如高级推理、更深入的研究,或者更多的来源/引用。
但在实践中真的有显著差异吗?
简而言之:没有。
Perplexity Pro 的报告似乎和免费版的相当类似;我绝对没有得到广告所说的“10 倍以上的引用”。我注意到的主要区别是它生成了很多花哨的图表,但实际上没什么用
Grok DeeperSearch 也没给我留下深刻印象。我在两个模型上运行了完全相同的查询,以进行同类比较;DeeperSearch 确实使用了大约 2-3 倍的来源,并且在某些情况下生成了长 30% - 60% 并带有额外细节的报告,但远未达到 ChatGPT 深度研究的深度。
即便是付费版感觉也仍然像摘要,而 ChatGPT 生成的是真正深入的研究,能带你详尽地了解一个主题。
如何创建一份好的深度研究提示词
提示词的质量决定了你研究工作的成败。如果你提交的是草率的请求,可能就会等上 15 分钟(甚至更久)之后,结果发现拿回来的是一堆半生不熟、没法用的东西,还浪费了宝贵的深度研究额度。
虽然每个模型都有自己的怪癖,但构成一个好的深度研究提示词的核心结构,在某种程度上与你最终使用哪个工具无关。
我们先过一遍各个组成部分,然后再把它们整合起来。如果你想尽快开始,可以随时跳过。
第一步:明确陈述你的目标
你的研究工作的目标是什么,你想要什么样的输出?如上所述,这可以是一个概述、一个建议、一个比较,或者一个详细的按部就班的指南(或者这些的混合体)。
❌ “帮我理解 AI 搜索的 SEO 是怎么回事”
✅ “请简要总结 AI 搜索引擎的 SEO 最佳实践,提供一个我可以采取的具体步骤清单来提升我内容的可见度,并推荐一个能帮我做这个的特定工具”
来自 Perplexity 深度研究的例子
第二步:提供上下文信息
这一步需要你付出最多的努力,但也是最重要的。深度研究的魔力不在于你能得到一份 20 页的主题摘要——而在于你能得到一份根据你的情况量身定制的报告,就好像你的团队里有一个研究分析师一样。
记住:你漏掉的任何一点上下文信息,AI 都会自己做假设,或者保持通用性,以便适用于所有人。
什么重要取决于具体情况,但你可能想提供以下这些:
💼 关于你的业务或情况的基本事实(比方说,产品、商业模式、地理位置)
🙋♂️ 报告的受众是谁(比方说,你、你公司的首席财务官等),以及他们对这个话题的熟悉程度如何
🚧 你面临什么限制(比方说,你公司不能/不会考虑的事情)
🎯 报告的后续用途是什么(比方说,你希望做出的某个具体决定)
即使是提供基本的上下文信息也能带来巨大差异:
这是 Gemini 在没有任何背景信息的情况下创建的关于增值税法规和合规性的超级通用报告
这是给提示词增加了一句上下文信息(来自美国、正在向欧盟扩张的 B2B SaaS 创业公司)后,得到的更具体、更可行的报告
因为很难想到可能相关的东西都想全,你可以让 AI 帮你头脑风暴。一个对我来说效果很好的简单提示词(比方说,用 O3)是:
我计划就 [X] 生成一份深度研究报告,以便 [Y]。我应该提供什么样的上下文信息,才能得到一份定制化的、可行的报告?假装你没有任何之前对话的背景信息。
最后,如果你想确保没漏掉任何东西,可以直接让深度研究智能体从你这里获取更多背景信息:
来自 Gemini 的例子
第三步:具体说明你希望输出结果是什么样的
如前所述,默认的输出(特别是 ChatGPT 的)有点乱。如果你想要更容易理解的东西,你就得具体说明。
一些对我来说效果不错的方法包括:
明确文档的内容和结构
明确 1)整个文档和 2)各个部分的内容和结构,对我来说结果会差别很大。
比方说:
指定任何你希望包含在交付成果里面的关键内容(比方说,特定的比较、模板、文案示例、代码片段等)
要求智能体遵循金字塔原则,以关键要点或建议开头(在主摘要和每个子部分中都如此)
来自 ChatGPT 关于氛围编程工具的深度研究报告的例子。在提出这个要求之前,我得像大海捞针一样去寻找建议。
要求提供所用来源的概览,包括它们的用途、类型(比方说,政府 vs. 商业 vs. 新闻媒体 vs. 新闻通讯/博客)、创建或更新日期等。
在 Perplexity 中为 B2B SaaS 软件进行 TAM 分析的来源概览示例
指定所需的输出格式
只需在提示词中添加几条基本指令,就能让报告的样子大不一样。
要求在适当的地方使用项目符号列表和粗体文本
声明对于任何类型的比较或概述,你更喜欢表格形式而不是文本摘要
来自 Perplexity 的清理过的摘要示例
第四步:索要研究计划并提供反馈
正如你在上面的概述中看到那样,只有 Gemini 会可靠地主动分享研究计划。为了防止意外,记得在智能体开始任何工作之前向它索要研究计划。
比方说,这是我在明确要求后,从 ChatGPT 那里得到的关于深入研究氛围编程工具的拟议研究计划。
来自 ChatGPT 的研究计划片段
以下是我会注意的关键事项:
研究计划全面吗?是不是少了某些你希望智能体做的分析,或者你希望写出来的章节?
你喜欢智能体关注的重点吗?如果你对某个特定领域感兴趣,确保智能体围绕这个领域来构建报告
有没有任何你不同意的隐性或显性假设?如果有,提供相关的背景信息来填补这些空白
你同意它的方法论吗(比方说,评估或比较标准)?
这也是可以具体说明你是否希望智能体优先考虑某些来源的好时机。
比方说,你可以要求使用来自独立第三方而不是公司网站的数据,或者你只想要某个截止日期之后的数据。
可选:给出你想要的结果示例
如果你有特定的预期(比方说,关于输出应该是什么样子),给出例子会很有帮助。
比方说,你可能正在使用深度研究来自动化你过去手动做的报告。在这种情况下,把你的一些最好的工作样本放到一个文档里,然后作为背景信息上传,这样 AI 智能体就可以模仿它们。
整合:一个有效的深度研究提示词长什么样
这是一个包含了上述技巧的端到端提示词示例:
这是 ChatGPT 生成的内容:
相当不错,我会说——比你用一个简单的“创建一个客户评分指南”提示词得到的结果要好得多。
旁注:如你所见,它承诺在继续之前分享一个研究计划,然后就忘了。这就是为什么我建议在回答背景问题时重复这个请求(这次我没这么做)。
🤖 如何用 AI 快速创建高质量的提示词
你可以自己设计提示词,也可以让 AI 帮忙(可以对你的草稿提示词提意见,或者从头开始写一个)。
比方说,如果你问 ChatGPT o3 这个……
……你会得到这个。
注意:我建议不要只是盲目地复制粘贴 AI 生成的提示词,而是要根据你的目的进行调整。比方说,你可以看到 o3 包含了很多非常具体的要求,而这些可能并不完全是你想要的。
不管怎样,这是一个很好的起点,比从头开始创建提示词要快。
💬 把研究当作一次对话
深度研究的额度是有限的,所以精心制作可靠的提示词很重要。不过,我还是建议用对待人类分析师的方式来对待 AI 研究。
有几个原因:
1. 对某样东西提出反馈比想象一个完美的交付成果要容易得多
你能描述出一个主题的完美分析是什么样的吗?它需要包含的每一个小细节都能描述出来?
可能不行。但一旦你看到,你马上就会知道如何改进它。根据我的经验,要想更快得到一个强有力的结果,先拿到第一版并提供反馈是更好做法,而不是在纠结于完美的提示词长什么样中浪费时间。
如果你不是这个领域的专家的话,尤其应该这么做。我常常对一个主题知之甚少,以至于我甚至不知道我该问什么问题。所以,我通常会这样做:
首先,我会要求给出一个高阶的概述,并附上后续深入研究的建议
然后,在审查了初步报告后,我会逐一深入研究最有趣的领域
这样,我就能避免被一份 长达50 页,里面塞满了我既不理解也不需要的信息的报告弄得不知所措。而且每一次深入研究,我都能有更好的理解,并能为下一次的“研究工作”完善我的问题。
2. 规定性越强,就越限制了模型的推理能力
这就像你作为经理下放工作一样:当你给予一些执行上的自由时,就能获得某些最好的交付成果。比方说,他们可能会从你根本没想到的角度来解决问题。
如果你给出一个规定性非常强的研究提示词,最好的结果就是一份和你自己做的一样好的报告。但如果你想有意外之喜,就需要更开放一些。
3. 研究报告就像一座纸牌屋:没有坚实的基础,其他一切都会分崩离析
想象一下,你得到了一份关于如何为某个用例构建机器学习模型的深入报告,包括清单、时间线估算、代码示例等,结果却发现你忘了提供一个关键的背景信息。
不仅所有这些东西现在都变得没用了;而且由于报告如此详细,你可能花了太多时间去研究它,才发现它从根本上就是有问题的。
在涉及到复杂的话题时,你最初的重点应该是把分析的核心搞对。然后,在满意之后,你就可以让 AI 创建后续的交付成果,比如详细的项目计划或者任何你实际执行建议时需要的东西。
如何从最终的研究报告中获取最大价值
如上所述,ChatGPT 深度研究报告可能会很长;真的很长。有时候多达 2 万字甚至更多。
不过,我不建议你一拿到就从头到尾读一遍。相反,我建议把它们当作一种资源,每当需要深入研究某个特定方面时,都可以有选择地参考。
要快速了解要点,更有效的方法是把报告重新输入 ChatGPT(或其他工具)并要求总结。如果你是把它作为跨职能项目的一部分来做这个研究,我强烈建议你要求为不同受众(比方说,产品经理、财务团队等)量身定制多个摘要。
最后,不只是人类能从深度研究中获益。你也可以把报告作为背景信息添加到任何未来的 AI 对话或项目中:
比方说:为 Claude 项目添加背景信息
回顾与展望
深度研究是一项绝对令人震撼的功能——如果你知道怎么用的话。希望这篇指南能为你提供一个捷径,最大限度地发挥它的价值。
译者:boxi。