36kr 前天 18:30
深度研究终极指南:从入门到“这玩意儿总算能用了”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文作者分享了使用 AI 研究工具(如 ChatGPT 深度研究、Gemini、Perplexity 等)的真实经验和教训。作者强调,尽管 AI 工具能极大提高研究效率,但其输出质量参差不齐,存在信息来源、判断力、格式等问题。文章详细对比了不同工具的优缺点,并提供了撰写高效提示词、优化研究计划、处理信息来源等实用技巧,旨在帮助用户将 AI 从“什么都懂点儿的实习生”转变为“专属分析师”,从而获得真正有价值的研究成果。

💡 AI 研究工具潜力巨大,能将研究时间缩短 80%-90%,但用户需主动管理并解决其固有缺陷,如信息来源不可靠、判断力不足、输出格式混乱等,切勿完全依赖。

🚀 不同 AI 研究工具各有侧重:ChatGPT 深度研究在研究深度和严谨性上表现最佳,适合复杂话题;Perplexity 适合快速概述新话题;Gemini 在研究规划上表现突出;Grok 和 Perplexity 在报告结构和格式上更易读。

✍️ 撰写高质量的深度研究提示词是关键,需明确目标、提供详尽的背景信息(业务、受众、限制、用途)、具体说明输出格式和结构,并主动索要和审查研究计划,不断迭代优化。

💬 将 AI 研究视为对话过程,通过提供反馈和迭代来逐步完善研究成果,而不是追求一次性输出完美报告。同时,要关注核心信息的准确性,再进行细节的丰富和格式的优化。

📊 付费版 AI 工具的价值有限,尤其是 ChatGPT 的付费版在深度研究方面具有优势,但其他工具的付费版升级带来的质量提升并不显著,需根据实际需求权衡。

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:各家公司推出的AI 研究工具吹得天花乱坠,但实际用起来却常常“翻车”。本文用真金白银换来了一份超详细的“避坑指南”,教你如何调教 AI,让它从一个“啥都懂点儿的实习生”变身为你真正的“专属分析师”。文章来自编译。

ChatGPT 深度研究(Deep Research)功能的发布,对我来说简直是个“顿悟”时刻。作为一个非技术出身的人,这是我第一次看到 AI 把我工作中最核心、也是我最擅长的部分,从头到尾都给自动化了。

以前我得花好几个小时手动去谷歌上搜东西,然后整理结果,现在几分钟就能拿到一份 20 页的报告。太震撼了。

不过,跟所有 AI 工具一样,最初的兴奋劲儿一过,我就发现这玩意儿产出的结果其实挺糙的。来源可疑、方法论站不住脚、格式乱七八糟跟一堵墙似的文字——你能想到的毛病,我在深度研究报告里都见过。

潜力是明摆着的,但要说真能像宣传的那样,成为一个“随时待命的麦肯锡分析师”,似乎也不完全准确。至少,你得花点功夫去了解和解决这个工具的弱点才行。

在摸索的过程中,我也在网上找过一些攻略。但让我惊讶的是,大部分攻略都太过泛泛而谈了,根本没法落地。

所以,我决定自己写一篇关于 AI 研究智能体的终极指南。

不吹不黑——全是我真金白银换来的经验教训,告诉你什么方法管用,什么不管用,以及怎么才能得到最好的结果。里面还包含了实际的并排对比案例,这样你就能直观地看到我提议的最佳实践到底有多大作用。

我们会涵盖以下内容:

我是如何看待用于研究的 AI 工具的

AI 研究代理这东西非常有用——不管你做什么工作。“研究”这个词听起来可能更像是学术圈或者某些初级岗位的活儿;但你仔细想想,我敢打赌你肯定也花了不少时间在这上面。

比方说:

AI 研究智能体能帮你搞定所有这些事,甚至更多。而且它们不只在工作上有用。

根据我的经验,高级的应用场景有这些:

AI 可以把完成这些事情所需的时间减少 80% 到 90%。但是:千万别在没有监督的情况下把这些任务完全外包出去。如果你盲目地把输出结果用在任何重要的事情上,你肯定会吃大亏。

这些 AI 智能体,至少在目前的版本里,需要你手把手地教才能生成靠谱的东西。而要扮演好这个关键的“管理者”角色,你就得知道该注意些什么。

需要注意的五大问题

问题一: AI 智能体不会主动询问它需要的背景信息

正如你在下面的详细比较中会看到那样,大多数 AI 研究工具不会主动询问背景信息,只会利用你在提示词里提供的信息。

就像一个急于求成的分析师,它们会直接开始干活,即使它们根本不知道你到底想用这份报告做什么。

而且就算这些智能体真的问了上下文信息(比如因为你让它问了):

    问题并不总能涵盖所有重要的方面,而且

    如果你的回答不够充分,它们也绝不会追问

👉 怎么解决:主动提供尽可能多的关于你的情况和你的目标的背景信息,并告诉智能体如果还有什么不清楚的就来问。

问题二: AI 智能体不知道如何正确处理信息来源

我观察到,默认情况下(也就是说,除非你告诉它们怎么做得更好), AI 智能体在处理信息来源方面有几个主要问题:

如果你不留神,最后你得到的会是一份看起来很花哨但基础不牢的报告:

👉 怎么解决:特别是对于数据量大的报告,你必须 1)指导它优先考虑哪些来源,以及 2)要求它清晰地展示来源是如何被使用的。

问题三: AI 智能体无法访问大量高质量的数据源

深度研究功能无法访问付费来源。然而,基于你所研究领域的不同,很多好数据恰恰就放在那些地方。

比方说,对于很多 B2B SaaS 领域的分析,你可能想利用来自领英 API 或者市场研究公司的数据。目前,要做到这一点,你需要先下载这些数据集,然后再让 AI 能够访问它们。

此外, AI 智能体显然只能研究网上能找到的东西。如果你在研究一个微妙、小众的话题(比如,一个复杂的法律问题),这就成问题了。

👉 怎么解决:在这种情况下,最好把深度研究看作一个能帮你准备专家访谈的工具(这样你就知道该问什么问题),而不是一个能给你提供建议的端到端解决方案。

问题四: AI 智能体有时候判断力平平

深度研究报告的推理质量差异很大;不同查询之间,以及不同工具之间(比如 ChatGPT vs. Gemini)都有差异。有时候我会被深深折服,有时候又感觉像在审阅一个高中实习生的作业。

另外,你会发现这些研究智能体常常只是复述它们找到的某个观点(比如,在某篇博客文章里),而不是真正去深入思考一个问题。换句话说,你把判断力外包给了网上的某个路人甲。

👉 怎么解决:

问题五:默认的输出格式通常不太好用

默认情况下,你从 ChatGPT 和 Gemini 那里拿到的研究报告都是一大坨文字,很难看懂。

当然,你可以让 AI 做个总结;但在某些情况下,你确实想深入了解。你只是希望信息以一种易于理解的方式呈现出来。

👉 怎么解决:给出关于你希望报告如何组织和排版的指示(比方说,加上“太长不看版”,使用概览表格等)。

好了,牢骚发够了;我们来谈谈你能做哪些具体的事情,来最大限度地利用这些工具。

    首先,我们会深入挖掘不同工具的优缺点,这样你就知道哪个最适合你的应用场景了

    然后,我们会过一遍可行的最佳实践,让你每次都能得到高质量的输出结果

哪个 AI 研究工具最好?

你可能听说过 ChatGPT 深度研究,但它不是市面上唯一的工具。过去几个月,一大堆其他公司也发布了他们自己的版本。

比较有名的有:

乍一看,它们都差不多。你把一个研究提示词扔进聊天窗口,5 到 30 分钟后,你就能得到一份详细的多页报告。

然而,魔鬼在细节中。我针对几十个应用场景对这些工具进行了广泛的测试,它们的研究方法和输出质量存在巨大差异:

注意:我在这里比较的是模型的基础版,这样你就知道作为免费用户你能得到什么了。我会在最后的一个单独部分讨论付费“高级”模型的性能差异。

⭐ 总体推荐

太长不看版:

ChatGPT 的两个最大弱点是 1)它选择来源的方式,以及 2)它会生成格式很差的大段文字。

不过,这两点都是默认行为,可以通过正确的提示词进行调整;我们将在下一节中详细讨论。根据我的经验,归根结底就是:

你可以要求 ChatGPT 使用不同的来源或美化报告,但你很难通过提示词让其他工具变得更严谨。

不过,200 美元的 Pro 套餐对个人来说显然贵得离谱,而且免费版和 Plus 版的使用限制也很低。因此,你可能需要根据这里讨论的优缺点,选择另一个工具作为你的“日常主力”,然后把 ChatGPT 深度研究“留着”用在最重要的任务上。

如果你已经有了心头好,可以随时跳到关于提示词最佳实践的部分。

💰 价格与限制

🏆 冠军:Grok;🥈 亚军:Perplexity

Grok 和 Perplexity 都挺慷慨,有免费套餐,每天可以进行多次查询,所以是那些想在不订阅的情况下使用深度研究功能的人的首选。

相比之下,ChatGPT 和 Gemini 的免费套餐每月都有相当严格的限制,而 Claude 的免费套餐根本就没有研究功能。

要是 Claude Research功能真的好到能这么自信就好了

作为重度用户,你最终会面临是否应该升级到付费套餐的问题。除了使用限制大大提高之外,据说你还能获得更好的模型和更高质量的输出。

我们将在本节末尾讨论这是否会带来显著差异(剧透:并不会)。

🤔 研究规划

🏆 冠军:Gemini;🥈 亚军:ChatGPT

特别是当你没有写一条带有详细指令的长提示词,告诉智能体你希望它如何进行研究时,在它开始之前了解它打算做什么就至关重要了。

比方说,如果你要求比较软件工具,你可能想知道它打算用什么标准来评估它们,这样你就不用等 5-10 分钟才得到一个不着边际的东西。

Gemini 是唯一一个默认分享研究计划的工具。其他的工具,ChatGPT、Claude 和 Perplexity 通常是你要要求的时候才会提供:

另一方面,Grok 往往会忽略我的要求,直接开始研究 🤷。

注意:为了让智能体分享研究计划的几率最大化,请同时在 1)初始提示词中和 2)回答后续问题时都提出要求。

🙋‍♂️ 上下文信息收集

🏆 冠军:ChatGPT;🥈 亚军:Claude

ChatGPT 深度研究是唯一一个能可靠地询问 3-5 个上下文问题的工具,即使你没有明确告诉它这样做。而且,问题通常都能切中要害(即,类似于一个厉害的分析师会问的问题)。

其他的工具在你提示词里要求时也会做,但不太可靠。以下是我发现效果不错的两个方法:

🧠 推理与判断

🏆 冠军:ChatGPT;🥈 亚军:Perplexity

推理和判断是一份好研究报告的基础。

如果你不同意智能体使用的方法论或它得出的结论,那么报告再长再漂亮都无关紧要。

ChatGPT 在这方面是当之无愧的赢家;它不仅表现出强大的判断力(比方说,在选择评估标准或得出结论时),而且还能给出有力的建议,并清晰地说明它是如何得出该观点的。

所有其他工具(除了 Perplexity)在研究方法上都经常做出可疑的选择,而且通常不清楚它们是如何得出建议的。因此,如果你打算将输出结果用于任何重要的事情,就必须非常仔细地阅读报告,并提出后续问题。

📖 全面性

🏆 冠军:ChatGPT;🥈 亚军:Gemini

ChatGPT 和 Gemini 生成的报告是目前最全面的;不过,ChatGPT 通常会在重要领域深入挖掘,而 Gemini 则经常添加一些提示词里没要求的通用“废话”。

ChatGPT 庞大报告的明显好处是,对于复杂的话题,它比其他工具会考虑得更详细。

但这也意味着你需要添加指令来改善报告的结构和格式(比方说,为每个部分添加摘要),及/或如果你需要快速获得洞见,就需要让 AI 对这些报告进行总结。我们下面会深入探讨这一点。

其他三个工具的问题正好相反;它们的报告算不上真正的深度研究。哪怕它们参考了几十个(Claude 甚至会参考几百个)来源,输出结果读起来也像个“太长不看版”,所以不要指望能得出很多微妙、详细比较或超实用的指南。

你可以通过要求它们“格外彻底”并“目标至少 [X 千] 字”(特别是对 Perplexity)来获得稍微详细一点的报告,但达不到 ChatGPT 的水平。

✨ 报告结构与格式

🏆 冠军:Perplexity;🥈 亚军:Grok

Perplexity 和 Grok 默认都会生成易于阅读的报告,并且很好地利用了项目符号列表和概览表格。如果你想在不调整提示词的情况下快速获得格式良好的洞见,这些工具就适合你。

如前所述,其他工具需要在提示词中给出指导,才能生成易于解析的内容。

📚 来源

🏆 冠军:Perplexity;🥈 亚军:Claude

对于深度研究的来源,有几点很重要:

    选择优先考虑什么(类型)的来源是否容易

    考虑了多少来源(以获得一个平衡的、包含广泛观点和数据点的概述)

    研究智能体选择的来源质量

    追踪引用的难易程度(这样你就可以核对论点背后的数据)

默认情况下,ChatGPT 在这些方面(除了引用)都不太行。不过,在实践中这也不是个大问题,因为 1)它的摘要和要点通常仍然很到位,而且 2)它对反馈的反应非常迅速。

比方说,当我要求提供主要欧盟市场的市场规模概览时,第一个版本使用了可疑的方法论和数据源。但我通过做两件事,在 5 分钟内就得到了一个好得多的版本:

1. 要求 ChatGPT o3 编制一份用于市场规模估算的最佳数据源列表:

2. 要求深度研究功能基于此重做报告的那一部分,并突出显示不同信誉良好的来源数据不一致的地方(+ 提供可能的原因假设)。

付费版值得买吗?

在试用了一会儿深度研究功能后,你可能会想:昂贵的付费版值得吗,还是免费版就够了?

别担心;我都买了一遍,这样你就不用买了。

太长不看版:在我看来,如果你是重度用户,只有 ChatGPT 的付费版值得。所有其他的付费版只有在你也用这个账户做其他事情时才有意义。

这里主要有两个考虑因素:

1. 请求数限制

Perplexity 和 Grok 在免费版中提供了充足的研究额度,所以对大多数用户来说升级不是必须的。

Gemini 的重度用户很可能会达到上限,而 Claude 根本不提供免费的研究功能;但在我看来,这种情况下你最好还是用 ChatGPT。

2. 输出质量

在付费套餐的广告中,你会看到一些相当夸张的宣传,比如高级推理、更深入的研究,或者更多的来源/引用。

但在实践中真的有显著差异吗?

简而言之:没有。

即便是付费版感觉也仍然像摘要,而 ChatGPT 生成的是真正深入的研究,能带你详尽地了解一个主题。

如何创建一份好的深度研究提示词

提示词的质量决定了你研究工作的成败。如果你提交的是草率的请求,可能就会等上 15 分钟(甚至更久)之后,结果发现拿回来的是一堆半生不熟、没法用的东西,还浪费了宝贵的深度研究额度。

虽然每个模型都有自己的怪癖,但构成一个好的深度研究提示词的核心结构,在某种程度上与你最终使用哪个工具无关。

我们先过一遍各个组成部分,然后再把它们整合起来。如果你想尽快开始,可以随时跳过。

第一步:明确陈述你的目标

你的研究工作的目标是什么,你想要什么样的输出?如上所述,这可以是一个概述、一个建议、一个比较,或者一个详细的按部就班的指南(或者这些的混合体)。

来自 Perplexity 深度研究的例子

第二步:提供上下文信息

这一步需要你付出最多的努力,但也是最重要的。深度研究的魔力不在于你能得到一份 20 页的主题摘要——而在于你能得到一份根据你的情况量身定制的报告,就好像你的团队里有一个研究分析师一样。

记住:你漏掉的任何一点上下文信息,AI 都会自己做假设,或者保持通用性,以便适用于所有人。

什么重要取决于具体情况,但你可能想提供以下这些:

即使是提供基本的上下文信息也能带来巨大差异:

因为很难想到可能相关的东西都想全,你可以让 AI 帮你头脑风暴。一个对我来说效果很好的简单提示词(比方说,用 O3)是:

我计划就 [X] 生成一份深度研究报告,以便 [Y]。我应该提供什么样的上下文信息,才能得到一份定制化的、可行的报告?假装你没有任何之前对话的背景信息。

最后,如果你想确保没漏掉任何东西,可以直接让深度研究智能体从你这里获取更多背景信息:

来自 Gemini 的例子

第三步:具体说明你希望输出结果是什么样的

如前所述,默认的输出(特别是 ChatGPT 的)有点乱。如果你想要更容易理解的东西,你就得具体说明。

一些对我来说效果不错的方法包括:

明确文档的内容和结构

明确 1)整个文档和 2)各个部分的内容和结构,对我来说结果会差别很大。

比方说:

来自 ChatGPT 关于氛围编程工具的深度研究报告的例子。在提出这个要求之前,我得像大海捞针一样去寻找建议。

在 Perplexity 中为 B2B SaaS 软件进行 TAM 分析的来源概览示例

指定所需的输出格式

只需在提示词中添加几条基本指令,就能让报告的样子大不一样。

来自 Perplexity 的清理过的摘要示例

第四步:索要研究计划并提供反馈

正如你在上面的概述中看到那样,只有 Gemini 会可靠地主动分享研究计划。为了防止意外,记得在智能体开始任何工作之前向它索要研究计划。

比方说,这是我在明确要求后,从 ChatGPT 那里得到的关于深入研究氛围编程工具的拟议研究计划。

来自 ChatGPT 的研究计划片段

以下是我会注意的关键事项:

这也是可以具体说明你是否希望智能体优先考虑某些来源的好时机。

比方说,你可以要求使用来自独立第三方而不是公司网站的数据,或者你只想要某个截止日期之后的数据。

可选:给出你想要的结果示例

如果你有特定的预期(比方说,关于输出应该是什么样子),给出例子会很有帮助。

比方说,你可能正在使用深度研究来自动化你过去手动做的报告。在这种情况下,把你的一些最好的工作样本放到一个文档里,然后作为背景信息上传,这样 AI 智能体就可以模仿它们。

整合:一个有效的深度研究提示词长什么样

这是一个包含了上述技巧的端到端提示词示例:

这是 ChatGPT 生成的内容:

相当不错,我会说——比你用一个简单的“创建一个客户评分指南”提示词得到的结果要好得多。

旁注:如你所见,它承诺在继续之前分享一个研究计划,然后就忘了。这就是为什么我建议在回答背景问题时重复这个请求(这次我没这么做)。

🤖 如何用 AI 快速创建高质量的提示词

你可以自己设计提示词,也可以让 AI 帮忙(可以对你的草稿提示词提意见,或者从头开始写一个)。

比方说,如果你问 ChatGPT o3 这个……

……你会得到这个

注意:我建议不要只是盲目地复制粘贴 AI 生成的提示词,而是要根据你的目的进行调整。比方说,你可以看到 o3 包含了很多非常具体的要求,而这些可能并不完全是你想要的。

不管怎样,这是一个很好的起点,比从头开始创建提示词要快。

💬 把研究当作一次对话

深度研究的额度是有限的,所以精心制作可靠的提示词很重要。不过,我还是建议用对待人类分析师的方式来对待 AI 研究。

有几个原因:

1. 对某样东西提出反馈比想象一个完美的交付成果要容易得多

你能描述出一个主题的完美分析是什么样的吗?它需要包含的每一个小细节都能描述出来?

可能不行。但一旦你看到,你马上就会知道如何改进它。根据我的经验,要想更快得到一个强有力的结果,先拿到第一版并提供反馈是更好做法,而不是在纠结于完美的提示词长什么样中浪费时间。

如果你不是这个领域的专家的话,尤其应该这么做。我常常对一个主题知之甚少,以至于我甚至不知道我该问什么问题。所以,我通常会这样做:

    首先,我会要求给出一个高阶的概述,并附上后续深入研究的建议

    然后,在审查了初步报告后,我会逐一深入研究最有趣的领域

这样,我就能避免被一份 长达50 页,里面塞满了我既不理解也不需要的信息的报告弄得不知所措。而且每一次深入研究,我都能有更好的理解,并能为下一次的“研究工作”完善我的问题。

2. 规定性越强,就越限制了模型的推理能力

这就像你作为经理下放工作一样:当你给予一些执行上的自由时,就能获得某些最好的交付成果。比方说,他们可能会从你根本没想到的角度来解决问题。

如果你给出一个规定性非常强的研究提示词,最好的结果就是一份和你自己做的一样好的报告。但如果你想有意外之喜,就需要更开放一些。

3. 研究报告就像一座纸牌屋:没有坚实的基础,其他一切都会分崩离析

想象一下,你得到了一份关于如何为某个用例构建机器学习模型的深入报告,包括清单、时间线估算、代码示例等,结果却发现你忘了提供一个关键的背景信息。

不仅所有这些东西现在都变得没用了;而且由于报告如此详细,你可能花了太多时间去研究它,才发现它从根本上就是有问题的。

在涉及到复杂的话题时,你最初的重点应该是把分析的核心搞对。然后,在满意之后,你就可以让 AI 创建后续的交付成果,比如详细的项目计划或者任何你实际执行建议时需要的东西。

如何从最终的研究报告中获取最大价值

如上所述,ChatGPT 深度研究报告可能会很长;真的很长。有时候多达 2 万字甚至更多。

不过,我不建议你一拿到就从头到尾读一遍。相反,我建议把它们当作一种资源,每当需要深入研究某个特定方面时,都可以有选择地参考。

要快速了解要点,更有效的方法是把报告重新输入 ChatGPT(或其他工具)并要求总结。如果你是把它作为跨职能项目的一部分来做这个研究,我强烈建议你要求为不同受众(比方说,产品经理、财务团队等)量身定制多个摘要。

最后,不只是人类能从深度研究中获益。你也可以把报告作为背景信息添加到任何未来的 AI 对话或项目中:

比方说:为 Claude 项目添加背景信息

回顾与展望

深度研究是一项绝对令人震撼的功能——如果你知道怎么用的话。希望这篇指南能为你提供一个捷径,最大限度地发挥它的价值。

译者:boxi。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI研究工具 ChatGPT 提示词工程 深度研究 效率提升
相关文章