告别每月 200 刀！PPIO x Deep Searcher：10分钟构建企业级AI私有知识库

2025-04-08 18:28 上海

deep-searcher 在数据处理准确性、分析结构化程度、洞察力方面表现都较为出色。

前段时间，OpenAI 的 Deep Research 与 X 平台主推的 Grok Deepsearch 强大的信息整合能力让大家眼前一亮。

但每月 200 美金的高昂订阅成本、仅限单一模型，依赖社交数据等现状，还是造成了部分应用场景的局限，在专业领域应用时难以满足部分开发者的严苛要求。

而现在，专注于向量数据库的 Zilliz 在开发者社区给出了新的解法——接近 6k stars 的 GitHub 开源项目 deep-searcher 。

0 订阅成本：即刻部署，0 订阅成本使用

可多模型切换：自由切换 DeepSeek/Qwen 等顶尖大模型

本地知识导入：无缝融合企业文档/ CAD 图纸/代码库等非结构化数据，隐私保护更佳

作为国内最早上线 DeepSeek 全模型 API 的供应商之一，PPIO在助力 deep-searcher 也发挥着效能。

作为一站式 AIGC 云服务平台的 PPIO，为 AI 开发者和企业提供低成本、稳定可靠且接入简单的大模型 API 与 GPU 算力服务。

这里有高性能的 API 服务，覆盖最新的 DeepSeek、Qwen 等系列模型，低价、稳定、快速，仅需一行代码即可调用，还支持在 chatbox、angthingLLM、Ragflow 等 20 多个主流第三方平台使用。

PPIO × deep-searcher 图文使用教程

1. 配置前置条件

（1）获取【API Base URL】

固定为：https://api.ppinfra.com/v3/openai

（2）获取【API Key】

登录派欧云控制台 API 密钥管理页面，点击创建按钮。注册账号记得填写邀请码【VOJL20】。

API 密钥管理页面为：https://ppinfra.com/settings/key-management

（3）生成并保存【API密钥】

!!注意:密钥在服务端是加密存储，请在生成时保存好密钥；若遗失可以在控制台上删除并创建一个新的密钥。

（4）获取需要使用的模型 ID，推荐使用：

deepseek/deepseek-r1-turbo

deepseek/deepseek-v3-turbo

deepseek/deepseek-v3-0324

qwen/qwq-32b

其他模型 ID、最大上下文及价格可参考模型列表：https://ppinfra.com/pricing

2. 安装 deep-searcher

在 PPIO官网准备好信息后，具体安装指南参考：https://github.com/zilliztech/deep-searcher

（1）克隆仓库

git clone https://github.com/zilliztech/deep-searcher.git
cd deep-searcher

（2）创建一个虚拟环境并激活它

#MAKE SURE the python version is greater than or equal to 3.10python3 -m venv .venvsource .venv/bin/activate

（3）安装依赖

pip install -e .

3. 配置 deep-searcher

（1）配置代码

import loggingimport os
from deepsearcher.offline_loading import load_from_local_filesfrom deepsearcher.online_query import queryfrom deepsearcher.configuration import Configuration, init_config
httpx_logger = logging.getLogger("httpx") # disable openai's logger outputhttpx_logger.setLevel(1ogging.WARNING)
current_dir = os.path.dirname(os.path.abspath(__file__))
config = Configuration() # Customize your config hereconfig.set_provider_config("llm","PPIO",{"model":"deepseek/deepseek-r1-turbo"})config.set_provider_config("embedding","PPIOEmbedding", {"model":"baai/bge-m3"})init_config(config=config)
# You should clone the milvus docs repo to your local machine first, execute:# git clone https://github.com/milvus-io/milvus-docs.git# Then replace the path below with the path to the milvus-docs repo on your local machine# import glob# all_md_files = glob.glob('xx/milvus-docs/site/en/**/*.md',recursive=True)# load_from_local_files(paths_or_directory=all_md_files, collection_name="milvus_docs", collection_description="All Milvus Documents")
# Hint: You can also load a single file, please execute it in the root directory of the deep searcher project
load_from_local_files(    paths_or_directory=os.path.join(current_dir, "data/ducument_name.pdf"),    collection_name="xxx",    collection_description="xxx",    force_new_collection=True, # If you want to drop origin collection and create a new collection every time,set force_new_collection to True）question＝"xxx"

（2）PPIO 关键配置详情

LLM 配置

确保您已设置环境变量 PPIO_API_KEY 为刚刚获取的 API Key。

config.set_provider_config("llm", "PPIO", {"model": "deepseek/deepseek-r1-turbo"})

嵌入模型配置

确保您已将 PPIO API KEY 准备好作为环境变量PPIO_API_KEY。

config.set_provider_config("embedding", "PPIOEmbedding", {"model": "baai/bge-m3"})

上传检索文档

从指定的本地路径加载文件，并将其内容存储到的集合中。

如需执行时删除并重新创建该集合，可将 force_new_collection 设置为 True。

load_from_local_files(    paths_or_directory=os.path.join(current_dir, "data/ducument_name.pdf"),    collection_name="xxx",    collection_description="xxx",    force_new_collection=True, # If you want to drop origin collection and create a new collection every time,set force_new_collection to True）question＝"xxx"

4. 运行效果展示

（1）deep-searcher 输出和运行效果展示：

用两个场景展示一下 Deep-Searcher 的效果

（1）分析一下 A 股新能源车企的状况

请从财务和宏观经济角度，对 A 股新能源汽车行业以及行业内 TOP5 车企的发展进行分析。在财务分析部分，需涵盖基本的财务关键指标。在宏观经济分析部分，考虑宏观经济指标对行业的影响，对 A 股新能源汽车行业整体发展趋势进行总结，并基于财务和宏观经济分析，对 TOP5 新能源车企的未来发展潜力和竞争态势做出比较和预测，指出各车企的优势与挑战。请以专业、严谨的语言，结合具体数据进行分析阐述。

输出内容：

基于文档数据，A股新能源汽车行业及TOP5车企分析如下：一、财务分析（以比亚迪、长安汽车为例）：1. 比亚迪2024Q3营收430.48亿元（同比-17.74%），净利润6.91亿元（同比-39.45%），显示成本端承压明显；但2025年股息分配方案达10派30.98元，现金流表现优于同业。2. 长安汽车2023Q4营收744.71亿元（同比+0.09%），净利润14.11亿元（同比-12.48%），盈利能力弱于比亚迪，但2024Q2实现净利润6.63亿元（环比+44.22%），展现弹性恢复。二、宏观经济影响：1. 行业2024年营收普遍负增长（比亚迪-17.74%，长安-12.82%），反映补贴退坡与消费疲软双重压力。2024Q3行业净利润环比-92.85%，显示季度波动加剧。2. 原材料价格高位震荡，2024年TOP5车企平均毛利率同比下降3-5个百分点，成本传导能力分化。三、行业趋势与竞争格局：1. 行业集中度提升：比亚迪2024年营收规模超长安汽车1.6倍，头部效应显著。2025年研发投入头部车企占比预计提升至8-10%。2. 技术路线分化：比亚迪垂直整合优势稳固（2024年专利数量同比+25%），长安汽车智能化转型加速（L4自动驾驶投入占比升至15%）。四、TOP5车企竞争力预测：1. 比亚迪：优势在于全产业链布局（电池自供率85%）和海外市场突破（2024出口占比升至18%），挑战来自原材料套期保值风险。2. 长安汽车：依托燃油车利润反哺（2024传统业务贡献65%现金流），但新能源转型速度滞后（电动化率21% vs 行业均值35%）。3. 其他头部：需关注新势力企业的毛利率改善（2024Q3平均毛利率回升至18.7%）及传统车企的混动技术突破。行业未来3年将维持15-20%复合增速，头部企业市占率有望从2024年的58%提升至2026年的65%，技术迭代与全球化布局将成为核心竞争维度。

输出结果分析：

deep-searcher 通过数据和具体因素（如补贴削减、成本压力）建立了宏观经济与行业表现的联系，其回答全面且数据丰富，涵盖财务指标、宏观经济影响和竞争趋。

这种深度和具体性使其对需要基于证据、可操作性评估的读者有一定价值。

（2）根据 JD 筛选简历

请根据以下优先级及标准，严格评估候选人的简历匹配度，从筛选出适合团队合作的3个与岗位匹配的实习生简历，并说明原因。筛选条件：1.硬性条件：Excel技能达标；英语能力达标。2.加分条件：（1）跨境电商经历（权重40%）：考虑平台经验；欧盟业务；数据成果。（2）供应链经验（权重30%）：选品分析；物流管理；单证处理。（3）工具能力（权重20%）：BI工具；ERP系统；自动化。（4）文化适配（权重10%）：跨文化经历；抗压案例；协作证明

输出内容：

**简历一（[姓名 1]）**  匹配原因：  1. 具备Shopee欧洲站运营经验，直接参与选品、数据分析和物流优化，熟悉跨境电商全链路；  2. 熟练运用Excel高级函数（VLOOKUP/SUMIFS）和BI工具，完成供应链可视化项目；  3. 英语CET-6 550分，参与跨部门协作的供应链优化项目，团队协同能力突出。  **简历三（[姓名 3]）**  匹配原因：  1. 参与校园跨境电商创业项目，完成欧洲市场选品和跨语言协作，体现团队执行力；  2. 掌握Excel数据清洗和基础分析技能，英语CET-6 505分满足基础沟通需求；  3. 市场调研经历可为欧洲市场竞品分析提供支持。  **简历十（[姓名 10]）**  匹配原因：  1. 自主运营eBay欧洲站店铺，实现从0到5000美元月销售额，实战经验丰富；  2. 主导选品和供应链优化项目，直接降低15%采购成本，展现业务闭环能力；  3. 英语CET-6 508分，熟悉跨境电商全流程操作，创业经历强化问题解决能力。

输出结果分析：

deep-searcher 提供了的细节和数据支持，紧密结合岗位需求，对岗位需求画像与候选人能力能够精准映射，对团队合作能力也有明确评估，展现了的专业性和针对性。

🖊 综合来看，deep-searcher 在数据处理准确性、分析结构化程度、洞察力方面表现都较为出色。

其对复杂查询的处理更稳定，更加贴合数据本身进行洞察，提供较高质量的分析，这种特性使其在为使用者提供可靠、深入的行业报告方面更具价值。

END

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签