原创 zJz 2025-04-10 19:39 北京
最近,谷歌不管是大模型,还是产品,上新的动作都有点频繁。。。
昨天,他们又宣布把 Deep Research 背后调用的模型升级到了最强的 Gemini 2.5 Pro。
Gemini 2.5 Pro,就不用我多吹了吧,从 3 月 25 号发布开始,口碑好的便是稳如老狗。现在已经成为了我每天使用最频繁的模型之一,地位都要超过 deepseek,妥妥的新晋心头爱。
可能是用户使用太多,连谷歌这样的商业巨佬都撑不住了,前几天开始对 Gemini 2.5 Pro API 收费了(此时我默默丢出一个差评),模型从原来的实验版 exp 变成了预览版 preview,说是配了更高的速率,但是我在 aistutio 上用的时候感觉还是变慢了。
且不提谷歌收费的事儿,2.5 Pro 的模型效果确实厉害,X 上和 family 群里的反馈都很强。
吐槽归吐槽,谷歌把这么牛的 Gemini 2.5 Pro 用到 Deep Research 这个功能上,那真的有点“王炸”的意思了。
为啥?因为 Deep Research 本身就不是一个省油的灯,它是一个强的有点 bug 的功能。
Deep Research(后面简称为,DR),你就理解为它是一个超级研究助理,可以自主上网冲浪,深度整合分析好几百个网页数据源,最后给你生成一份结构化的研究报告。
前段时间出圈的 Manus 带火了 AI Agent 赛道,也让 Deep Research 又火了一把。
为啥我说 Gemini 2.5 Pro+Deep Research 是一个王炸组合。
因为模型能力是 Agent 这类产品的基石,一个强大的模型可以提供了理解、推理、生成的基础能力,直接决定 Agent 效果,比如 Manus 背后调用的是 Claude。
这里,得强调一下,现在虽然好几家都在搞类似的功能,但‘Deep Research’这个名字和概念,最早就是谷歌在 Gemini 里先搞出来的,好多人都以为 OpenAI 先搞出来的,其实并不是 OpenAI 他们家首创。
明明是谷歌的首创,但是因为 OpenAI 当时的示范效果太好,所以风头都是隔壁 OpenAI 抢走了。这次谷歌一雪前耻,评估结果把 OpenAI 的按在地上摩擦。。
这是评估数据——
人类测试人员对 Gemini 2.5 Pro DR(蓝色) 和 OpenAI DR(灰色)的满意度。
可以看到,在指令响应、理解能力、完整度以及报告写作四个方面, Gemini 2.5 Pro DR 要远远好于 OpenAI DR。
此外,这是一些用户的反馈:
要知道掏钱订阅的用户都是非常挑剔的, 能让他们自发的表扬,看来 Gemini 2.5 Pro 加持下的 Deep Research 确实有两把刷子。
按照官方的说明, Deep Reasarch 的这次提升主要是下面两点:
按照网友的反馈,主要的优点包括:信息来源多、效果接近 OpenAI Deep Research。
还有不得不提的一点是——
OpenAI DR,需要订阅 200 美元的包,但是 Gemini DR 只要不到 20 美元,只有 openAI 的 1/10。就这一点,就赢在起跑线。
当然了,按照小瑶编辑部的标准,我们是一定要亲自进行测试。考虑到 Gemini Deep Research 的返回结果都是动辄几十页的长篇大论,我们不展示报告全部内容,只节选点评。
这次升级,aistutio 里暂时用不了,gemini APP 和网页端都能用了,需要是 advanced 用户。
启动 Deep Research 前,要手动选择 Gemini 2.5 Pro
题目一
请客观的评价 Meta 最近新发布的 Llama 4 相关模型。
选这个题目作为开场是因为我们刚刚写了一篇 Llama 4 的测评,对相关内容比较熟悉,主要考察信息收集和总结能力。
Deep Research 的第一步,是列出研究大纲,并让用户确定。
这个研究大纲涵盖了官方消息、技术细节、基准测试、模型对比、核心能力、第三方评价以及局限性。
这个大纲你们觉得怎么样,反正我认为已经是非常详细了。当然如果你觉得大纲不够好,可以再修改。
确定了研究大纲后,就授权 Deep Research 开始研究。
部分 thinking 过程展示:
咱别的先不说,就这些搜索网页的个数,信息的来源广度就很惊艳了,统计下来,一搜索了 195 信息源。要知道,Llama 4 本身上线也没有几天,这感觉把所有能搜的都搜了。
大概十几分钟的时间,整个报告就完成了,整体的质量我个人感觉非常好。
首先,所有基础事实类的内容全部都提到了,没有什么错误,每一段下面都列出来了数据来源。给大家随便挑一个例子,感受一下:
而且,我在浏览报告的时候发现 Gemini DR 能够索引到一些非常细节的内容,比如下面的例子:
这里提到了一款叫做 "Llama 4 Reasoning" 的推理模型,这个细节来自 Meta CEO 扎克伯格发布的视频,但很少有文章提到,谷歌竟然搜到了一篇文章,而且把细节也摘出来了。
除了 Llama 4 本身的基础信息之外,这份报告还涵盖了许多第三方的测评信息,包括社交媒体上人们对它测评结果的质疑、LMArena 上的"特供模型"风波、Meta 内部的八卦都写了进去,不可谓不全。
整个报告一共有 20 多页,就不做更多的详解了。总结来说,这个报告的内容非常详实,质量非常高。
(本文最后有完整报告的获取方法)
题目二
教育系统应该如何适应 AI 飞速发展的当今。 这里的教育系统包括 从小学到大学,以及职场的再教育。
首先是大纲:
整体报告如下:
首先,从报告的形式上看,Gemini DR 会自动用合适的方式展示信息,比如会自动用表格展示横向对比的内容:
从内容上看,本报通过循序渐进的方式,从探讨课程体系改革开始、逐渐深入讨论教学方法创新、评估方式转变、教育者能力发展以及伦理治理等关键议题。
整个报告共计 23 页,15000 字左右,78 个有效引用,内容是非常详细。
总之,我觉得可以直接拿去作为开题报告、提案申请书是没问题了。
题目三:
美国最新的关税政策,及其影响。 需要在文章中有历史上所有主要经济体之间关税战的介绍。
这是研究大纲:
整体报告如下:
这个报告也是非常详细的介绍了关税战的来龙去脉,里面涉及了很多美国的关税政策,税率的计算,生效时间等详细内容。
报告也尽可能的用表格,关键字加粗等方式强调重要信息。总之就是尽可能的降低阅读门槛。
我这个非专业人士,把这个报告当作一个学习资料,确实学习到了不少内容。
下面是一些截图:
上图的很多内容都是昨天(4 月 9 日)的新闻,时效性也非常好。
说句题外话,这个 Gemini DR 要比美国领导人“懂王”看起来理性很多。
总结
从我们的三个简单测试来看,Gemini 2.5 Pro 加持下的 Deep Research,确实真有那么点东西。
老实说,在这个信息爆炸但又渴望深度的时代,我们即使不是做科研的,但是日常都会或多或少地做着“研究”的事儿,比如就是想更深入地了解特朗普搞起来的关税风波对我们普通人的影响。
Deep Research,就是给你开了一个外挂,让你省下来大把力气,把精力花在更高层次的思考和判断上。
更别提,它还把获取这种深度研究能力的门槛,用一个相对‘亲民’的价格给拉了下来。
如果想详细的查阅生成的三份报告,请在公众号后台回复关键词「DR」下载。