2025-03-06 20:39 北京
大模型+超级搜索+研究助理三合一。
作者|付邦,Milvus 资深研发工程师
不久前,OpenAI 的 Deep Research(深度研究)功能一经推出,迅速受到诸多关注,通过将大模型+超级搜索+研究助理的三合一,金融机构一键生成报告、一键生成科研综述成为可能。
然而,Deep Research 月费高达 200 美元。此外,针对不同任务,各家大模型各有所长,只绑定其中一家最终效果往往并不理想。最重要的是,企业级场景中,真正有价值的数据,比如企业场景中的项目文档、研发的 CAD 图纸,多以非结构化形式储存在本地。
那么,企业如何把本地数据与 Deep Research 结合,还能灵活地挑选适合自己的大模型?
近期,Zilliz 结合 DeepSeek 等主流开源模型,并在常见的 RAG 方案上做了重大升级,推出开源项目 Deep Searcher(https://github.com/zilliztech/deep-searcher),助力在企业级场景中私有化部署 Deep Research。仅推出两周时间,该项目已在 Github 上收获了 3.5k Star,成为备受关注的本地部署企业级 DeepResearch 方案。
本文中,我们将以硅基流动 SiliconCloud + DeepSeek + DeepSearcher 为例,带来本地部署展示。
1. 选型参考:硅基流动 SiliconCloud + DeepSeek + Milvus = DeepSearcher
本次复现中,我们会采用硅基流动 SiliconCloud + DeepSeek +Milvus 的方式来打造企业本地的 DeepSearcher,选型逻辑如下:
硅基流动 SiliconCloud
硅基流动的 SiliconCloud (https://cloud.siliconflow.cn)是一站式大型模型云服务平台,致力于为开发者提供致力于为开发者提供极速响应、价格亲民、品类齐全、稳定丝滑的大模型 API 服务。2025 年春节前后,在 DeepSeek 官方入口频繁被挤崩的背景下,硅基流动联合华为昇腾成为国内最早将 DeepSeek-R1 & V3 部署上线,并为每个注册用户提供了免费的 API Key及邀请奖励额度的平台。
DeepSeek
DeepSeek 是目前全球范围内最顶级的开源大模型企业,旗下 Deepseek R1、DeepSeek-V3 均处于全球领先水平,在内容生成方面,具备相当优势。
Milvus
相较 OpenAI 的 DeepResearch,DeepSearcher 最大的优势在于可以接入本地数据与知识库,将企业的本地私有数据应用至复杂的研究任务中。使用开源的 Milvus 向量数据库,可以对企业的私有化数据进行更加高效管理,使得大模型可以更加准确有效地回答用户疑问。
2. 实操教程
第一步:硅基流动 SiliconCloud 准备工作
1.注册硅基流动账号,访问 https://siliconflow.cn/ 进行注册
2.创建 API Key,并保存以备后用(注意保密个人 API Key,若泄漏可删除重新生成)。
第二步:DeepSearcher 运行环境准备
1. 从 Github 上获取项目源码
2. 为 DeepSearcher 创建虚拟 Python 环境,建议使用 Python3.10 以上版本,下面使用 Python 自带的 venv 创建虚拟环境,也可以根据自己熟悉的工具进行创建。
cd deep-searcher
python3 -m venv .venv
source .venv/bin/activate
3.安装 DeepSearcher 及其依赖第三方库
pip install -e .
第三步:DeepSearcher 示例运行
1. 设置环境变量,以下以 Linux 为例,编辑用户目录下的 .bashrc,添加 SILICONFLOW_API_KEY 环境变量,其值设置为自己的 API Key。
export SILICONFLOW_API_KEY=sk-xxx
2.编辑 DeepSearcher 项目下的 examples 目录下的 basic_example.py 文件,设置硅基流动的 DeepSeek 服务。下面示例中设置的是 DeepSeek v3 的模型,也可以设置为 DeepSeek R1(即:deepseek-ai/DeepSeek-R1),更多模型选项可以参考其官方文档:https://docs.siliconflow.cn/cn/api-reference/chat-completions/chat-completions
config.set_provider_config("llm", "SiliconFlow", {"model": "deepseek-ai/DeepSeek-V3"})
3. 在运行前,这里简单介绍下这个示例。加载一个本地的 PDF,然后让大模型针对于这个 PDF 回答问题,当然你也可以通过同样的方式 load 更多 PDF。
# 确保你在该项目的根目录
python examples/basic_example.py
运行后,将会看到整个问题思考解答的部分流程,在最后会给出一个类似于下图的最终答案。
这个示例最后也打印出了消耗的 Token 数目,同时也可以在硅基流动的 SiliconCloud 平台查看该次消耗的费用。运行这次示例消耗了 12224 Token 数目,费用为 0.0286 元。
近期更新
• 硅基流动助力华为小艺接入DeepSeek-R1
• 硅基流动支持DeepSeek-R1 & V3私有化部署
• 硅基流动上线DeepSeek-R1 & V3企业级服务
• 硅基流动x亚马逊云科技上架DeepSeek-R1/V3
• 硅基流动x华为云推出DeepSeek-R1&V3服务
让超级产品开发者实现“Token自由”
邀好友用SiliconCloud,狂送2000万Token/人
即刻体验DeepSeek-R1&V3
cloud.siliconflow.cn
扫码加入用户交流群