Jina AI 05月14日 20:10
DeepSearch/DeepResearch 北京场分享干货回顾!本周日,上海再续!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Jina AI x Google Cloud Deep(Re)Search沙龙北京场圆满结束,活动吸引了众多搜索领域爱好者,围绕DeepSearch的工程实践细节进行了深入交流。DeepSearch的核心理念是通过搜索、阅读和推理三个环节的循环往复,找到最优答案。它还可用于DeepResearch,通过结构化框架生成长篇研究报告。与会者对DeepSearch在企业私域数据中的应用、质量评估等问题表现出浓厚兴趣,并探讨了构建评测体系、持续优化搜索质量的方法。

🔍DeepSearch的核心在于深度,通过在搜索、阅读和推理三个环节中不断循环往复,力求找到最优答案,区别于传统搜索模式。

💡DeepSearch的查询扩展(Query Expansion)超越了关键词和同义词的局限,能够挖掘用户隐藏的需求和动机,进行复杂的语义推理,从而提供更优质的信息。

🏢私域DeepSearch具有更大的应用价值,通过替换Jina AI DeepSearch 里搜索数据的 API 为私域数据的接口,可将DeepSearch应用于企业内部私域数据,并结合数据清洗、索引构建、权限管理等措施。

✅评估DeepSearch质量的关键在于构建能够真正衡量搜索深度和实用性的评测体系,包括自建内部评测数据集、人工评估以及将评测机制和反馈融入作答流程。

2025-03-24 18:07 北京

【报名开启】上海场,周日见!

2025 年 3 月 22 号,Jina AI x Google Cloud Deep(Re)Search 线下沙龙 · 北京场圆满结束,本场活动吸引了超过 100 位搜索领域同好,大家与分享嘉宾 Jina AI CEO 肖涵和 Google AI 专家孟和进行了积极而深入的交流,直至活动结束仍意犹未尽。

特别在问答环节,参会者们对 DeepSearch 的工程实践细节展现出极高的关注度,,围绕数据处理、性能优化和私有化部署等问题引发了一系列高密度、高质量的讨论。

回顾北京站的精彩内容,我们更加期待本周日即将到来的上海场,期待与更多朋友相聚。


<<< 北京场回顾:左右滑动见更多 >>>

分享回顾:干货,干货,还是干货!

Jina AI 创始人兼 CEO 肖涵,基于工程实践和长期观察,从产品经理的角度审视了 DeepSearch 的技术栈和发展方向。

DeepSearch 是深度搜索。核心理念是通过在搜索、阅读和推理三个环节中不断循环往复,直到找到最优答案。搜索环节利用搜索引擎探索互联网,而阅读环节则专注于对特定网页进行详尽的分析(例如使用 Jina Reader)。推理环节则负责评估当前的状态,并决定是应该将原始问题拆解为更小的子问题,还是尝试其他的搜索策略。

DeepResearch 是深度研究。是在 DeepSearch 的基础上,增加了一个结构化的框架,用于生成长篇的研究报告。它的工作流程一般从创建目录开始,然后系统性地将 DeepSearch 应用于报告的每一个所需部分:从引言到相关工作、再到方法论,直至最后的结论。报告的每个章节都是通过将特定的研究问题输入到 DeepSearch 中来生成的。最后将所有章节整合到一个提示词中,以提高报告整体叙述的连贯性。

深度搜索和深度研究一旦流行起来,就不会退回到传统搜索模式。用户习惯了延迟满足,会期望搜索结果越来越深入。 在深度搜索中,搜索结果的质量比速度更关键。但系统稳定性(不出错,保证结果成功展示)比质量更重要,因为用户无法容忍长时间等待后看到错误结果。

肖总还提到传统搜索的查询扩展(Query Expansion)依赖关键词和同义词,这在 Deep Search 中远远不够。好的 Query 扩展要能挖掘用户隐藏的、甚至是不愿意承认的需求,并主动呈现给用户。 它需要理解用户查询背后的意图和动机,进行更复杂的语义推理,这种能力直接决定了后续推理的信息质量和广度,是小模型无法企及的。

例如,当用户搜索“宝马 5 系二手价格”时,Deep Search 不仅关注价格,更要挖掘:用户可能正在比较车型优劣(“宝马 5 系 vs 奔驰 E vs 奥迪 A6 哪个好?”);用户可能考虑其他选择(“都买二手了,不如再看看 7 系低配?”);还要让用户看到可能让他后悔的选择(“宝马 5 系二手车维修成本高吗?”)。通过这些深层洞察,DeepSearch 才能帮助用户做出更明智的决策。


问答回顾:做接地气的解决方案

许多参会者都对 DeepSearch 如何应用到企业内部的私域数据非常感兴趣,事实上,私域数据也一定是 DeepSearch 的更优应用场景。公网的 DeepSearch 受到公网信息质量的限制,最好的结果可能只是一个维基百科页面。但如果能在企业内部实现 DeepSearch,可以为企业带来更大的价值。

而实现私域 DeepSearch 的方法也很简单,只需要将 Jina AI DeepSearch 里搜索数据的 API 替换为私域数据的接口。如果企业内部已经存在基于 Elasticsearch 等技术的搜索引擎,可以直接复用这些基础设施,只需将 DeepSearch 集成到现有的搜索流程中。当然,还需要考虑如何进行数据清洗、索引构建、权限管理等问题。更重要的是,要持续评估 DeepSearch 在私域数据上的搜索质量,并根据实际情况进行优化调整。

另一个反响热烈的问题是关于如何有效评估 DeepSearch 的质量?

肖涵提到评估 DeepSearch 质量的核心在于构建能够真正衡量搜索深度和实用性的评测体系。首先,自建内部评测数据集是必要的,但要避免模型直接搜索到答案,可以构造结合网上信息才能推理出来的、更隐蔽的问题。并且定期更新,防止模型记忆。

在实践中,人工评估也是必不可少的,能发现模型难以捕捉的问题,例如事实性错误、流畅度不足等。更进一步,可以将评测机制和反馈融入作答流程,比如 prompt 中可以包含对答案结构(是否使用表格)、复述习惯、时间信息等方面的要求,不满足的就拒绝通过。

当然更高级的做法,还是将评测结果作为 reward,用 Reinforcement Learning 优化模型。但关键还是持续迭代和优化,不断尝试新的评估指标和 Prompt 工程技巧,保证 DeepSearch 真正能提供高质量、有深度的结果。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSearch Jina AI 深度搜索 AI搜索 私域数据
相关文章