Zilliz 04月09日 18:40
告别每月 200 刀!PPIO x Deep Searcher:10分钟构建企业级AI私有知识库
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了 Zilliz 发布的开源项目 deep-searcher,该项目旨在解决专业领域对信息处理的严苛要求。相较于 OpenAI 的 Deep Research 和 X 平台的 Grok Deepsearch,deep-searcher 提供了 0 订阅成本的解决方案,支持多模型切换,并能无缝融合企业文档、CAD 图纸、代码库等非结构化数据。文章详细介绍了 deep-searcher 的配置、安装和使用方法,并通过实际案例展示了其在财务分析和简历筛选方面的出色表现,强调了其在数据处理准确性、分析结构化程度和洞察力方面的优势。

💡 deep-searcher 是一个开源项目,旨在解决专业领域的信息处理需求,提供了一种替代方案,以应对高昂的订阅成本和模型限制。

🔑 deep-searcher 具有 0 订阅成本的优势,支持多模型切换,包括 DeepSeek 和 Qwen 等顶尖大模型,并能本地导入非结构化数据,增强了隐私保护。

⚙️ PPIO 提供了 deep-searcher 的 API 服务,简化了开发者接入流程,并提供了详细的配置和使用教程,包括 API Key 的获取、环境配置和文档加载等步骤。

📊 文章通过分析 A 股新能源车企和筛选简历的案例,展示了 deep-searcher 在数据处理、结构化分析和洞察力方面的出色表现,以及其在提供高质量分析报告方面的价值。

2025-04-08 18:28 上海

deep-searcher 在数据处理准确性、分析结构化程度、洞察力方面表现都较为出色。



前段时间,OpenAI 的 Deep Research 与 X 平台主推的 Grok Deepsearch 强大的信息整合能力让大家眼前一亮。


但每月 200 美金的高昂订阅成本、仅限单一模型,依赖社交数据等现状,还是造成了部分应用场景的局限,在专业领域应用时难以满足部分开发者的严苛要求。


而现在,专注于向量数据库的 Zilliz 在开发者社区给出了新的解法——接近 6k stars 的 GitHub 开源项目 deep-searcher 。


    0 订阅成本:即刻部署,0 订阅成本使用


    可多模型切换:自由切换 DeepSeek/Qwen 等顶尖大模型


    本地知识导入:无缝融合企业文档/ CAD 图纸/代码库等非结构化数据,隐私保护更佳


作为国内最早上线 DeepSeek 全模型 API 的供应商之一,PPIO在助力 deep-searcher 也发挥着效能。


作为一站式 AIGC 云服务平台的 PPIO,为 AI 开发者和企业提供低成本、稳定可靠且接入简单的大模型 API 与 GPU 算力服务。


这里有高性能的 API 服务,覆盖最新的 DeepSeek、Qwen 等系列模型,低价、稳定、快速,仅需一行代码即可调用,还支持在 chatbox、angthingLLM、Ragflow 等 20 多个主流第三方平台使用。



PPIO × deep-searcher 图文使用教程




1. 配置前置条件


(1)获取 【API Base URL】


固定为:https://api.ppinfra.com/v3/openai


(2) 获取 【API Key】


登录派欧云控制台 API 密钥管理页面,点击创建按钮。注册账号记得填写邀请码【VOJL20】。


API 密钥管理页面为:https://ppinfra.com/settings/key-management



(3)生成并保存【API密钥】


!!注意:密钥在服务端是加密存储,请在生成时保存好密钥;若遗失可以在控制台上删除并创建一个新的密钥。




(4)获取需要使用的模型 ID,推荐使用:


    deepseek/deepseek-r1-turbo

    deepseek/deepseek-v3-turbo

    deepseek/deepseek-v3-0324

    qwen/qwq-32b


其他模型 ID、最大上下文及价格可参考模型列表:https://ppinfra.com/pricing


2. 安装 deep-searcher


在 PPIO官网准备好信息后,具体安装指南参考:https://github.com/zilliztech/deep-searcher


(1)克隆仓库


    git clone https://github.com/zilliztech/deep-searcher.git
    cd deep-searcher


    (2)创建一个虚拟环境并激活它


      #MAKE SURE the python version is greater than or equal to 3.10python3 -m venv .venvsource .venv/bin/activate


      (3)安装依赖


        pip install -e .


        3. 配置 deep-searcher


        (1)配置代码


          import loggingimport os
          from deepsearcher.offline_loading import load_from_local_filesfrom deepsearcher.online_query import queryfrom deepsearcher.configuration import Configuration, init_config
          httpx_logger = logging.getLogger("httpx"# disable openai's logger outputhttpx_logger.setLevel(1ogging.WARNING)
          current_dir = os.path.dirname(os.path.abspath(__file__))
          config = Configuration() # Customize your config hereconfig.set_provider_config("llm","PPIO",{"model":"deepseek/deepseek-r1-turbo"})config.set_provider_config("embedding","PPIOEmbedding", {"model":"baai/bge-m3"})init_config(config=config)
          # You should clone the milvus docs repo to your local machine first, execute:# git clone https://github.com/milvus-io/milvus-docs.git# Then replace the path below with the path to the milvus-docs repo on your local machine# import glob# all_md_files = glob.glob('xx/milvus-docs/site/en/**/*.md',recursive=True)# load_from_local_files(paths_or_directory=all_md_files, collection_name="milvus_docs", collection_description="All Milvus Documents")
          # Hint: You can also load a single file, please execute it in the root directory of the deep searcher project
          load_from_local_files(    paths_or_directory=os.path.join(current_dir, "data/ducument_name.pdf"),    collection_name="xxx",    collection_description="xxx",    force_new_collection=True# If you want to drop origin collection and create a new collection every time,set force_new_collection to Truequestion="xxx"


          (2)PPIO 关键配置详情


            LLM 配置


          确保您已设置环境变量 PPIO_API_KEY 为刚刚获取的 API Key。


            config.set_provider_config("llm""PPIO", {"model""deepseek/deepseek-r1-turbo"})


              嵌入模型配置


            确保您已将 PPIO API KEY 准备好作为环境变量PPIO_API_KEY。


              config.set_provider_config("embedding""PPIOEmbedding", {"model""baai/bge-m3"})


                上传检索文档


              从指定的本地路径加载文件,并将其内容存储到的集合中。


              如需执行时删除并重新创建该集合,可将 force_new_collection 设置为 True。


                load_from_local_files(    paths_or_directory=os.path.join(current_dir, "data/ducument_name.pdf"),    collection_name="xxx",    collection_description="xxx",    force_new_collection=True, # If you want to drop origin collection and create a new collection every time,set force_new_collection to Truequestion="xxx"


                4. 运行效果展示


                (1)deep-searcher 输出和运行效果展示:





                用两个场景展示一下 Deep-Searcher 的效果


                (1)分析一下 A 股新能源车企的状况


                  请从财务和宏观经济角度,对 A 股新能源汽车行业以及行业内 TOP5 车企的发展进行分析。在财务分析部分,需涵盖基本的财务关键指标。在宏观经济分析部分,考虑宏观经济指标对行业的影响,对 A 股新能源汽车行业整体发展趋势进行总结,并基于财务和宏观经济分析,对 TOP5 新能源车企的未来发展潜力和竞争态势做出比较和预测,指出各车企的优势与挑战。请以专业、严谨的语言,结合具体数据进行分析阐述。


                  输出内容:


                    基于文档数据,A股新能源汽车行业及TOP5车企分析如下:一、财务分析(以比亚迪、长安汽车为例):1. 比亚迪2024Q3营收430.48亿元(同比-17.74%),净利润6.91亿元(同比-39.45%),显示成本端承压明显;但2025年股息分配方案达10派30.98元,现金流表现优于同业。2. 长安汽车2023Q4营收744.71亿元(同比+0.09%),净利润14.11亿元(同比-12.48%),盈利能力弱于比亚迪,但2024Q2实现净利润6.63亿元(环比+44.22%),展现弹性恢复。二、宏观经济影响:1. 行业2024年营收普遍负增长(比亚迪-17.74%,长安-12.82%),反映补贴退坡与消费疲软双重压力。2024Q3行业净利润环比-92.85%,显示季度波动加剧。2. 原材料价格高位震荡,2024年TOP5车企平均毛利率同比下降3-5个百分点,成本传导能力分化。三、行业趋势与竞争格局:1. 行业集中度提升:比亚迪2024年营收规模超长安汽车1.6倍,头部效应显著。2025年研发投入头部车企占比预计提升至8-10%。2. 技术路线分化:比亚迪垂直整合优势稳固(2024年专利数量同比+25%),长安汽车智能化转型加速(L4自动驾驶投入占比升至15%)。四、TOP5车企竞争力预测:1. 比亚迪:优势在于全产业链布局(电池自供率85%)和海外市场突破(2024出口占比升至18%),挑战来自原材料套期保值风险。2. 长安汽车:依托燃油车利润反哺(2024传统业务贡献65%现金流),但新能源转型速度滞后(电动化率21% vs 行业均值35%)。3. 其他头部:需关注新势力企业的毛利率改善(2024Q3平均毛利率回升至18.7%)及传统车企的混动技术突破。行业未来3年将维持15-20%复合增速,头部企业市占率有望从2024年的58%提升至2026年的65%,技术迭代与全球化布局将成为核心竞争维度。


                    输出结果分析:


                    deep-searcher 通过数据和具体因素(如补贴削减、成本压力)建立了宏观经济与行业表现的联系,其回答全面且数据丰富,涵盖财务指标、宏观经济影响和竞争趋。


                    这种深度和具体性使其对需要基于证据、可操作性评估的读者有一定价值。



                    (2)根据 JD 筛选简历


                      请根据以下优先级及标准,严格评估候选人的简历匹配度,从筛选出适合团队合作的3个与岗位匹配的实习生简历,并说明原因。筛选条件:1.硬性条件:Excel技能达标;英语能力达标。2.加分条件:(1)跨境电商经历(权重40%):考虑平台经验;欧盟业务;数据成果。(2)供应链经验(权重30%):选品分析;物流管理;单证处理。(3)工具能力(权重20%):BI工具;ERP系统;自动化。(4)文化适配(权重10%):跨文化经历;抗压案例;协作证明


                      输出内容:


                        **简历一([姓名 1])**  匹配原因:  1. 具备Shopee欧洲站运营经验,直接参与选品、数据分析和物流优化,熟悉跨境电商全链路;  2. 熟练运用Excel高级函数(VLOOKUP/SUMIFS)和BI工具,完成供应链可视化项目;  3. 英语CET-6 550分,参与跨部门协作的供应链优化项目,团队协同能力突出。  **简历三([姓名 3])**  匹配原因:  1. 参与校园跨境电商创业项目,完成欧洲市场选品和跨语言协作,体现团队执行力;  2. 掌握Excel数据清洗和基础分析技能,英语CET-6 505分满足基础沟通需求;  3. 市场调研经历可为欧洲市场竞品分析提供支持。  **简历十([姓名 10])**  匹配原因:  1. 自主运营eBay欧洲站店铺,实现从0到5000美元月销售额,实战经验丰富;  2. 主导选品和供应链优化项目,直接降低15%采购成本,展现业务闭环能力;  3. 英语CET-6 508分,熟悉跨境电商全流程操作,创业经历强化问题解决能力。


                        输出结果分析:


                        deep-searcher 提供了的细节和数据支持,紧密结合岗位需求,对岗位需求画像与候选人能力能够精准映射,对团队合作能力也有明确评估,展现了的专业性和针对性。



                        🖊 综合来看,deep-searcher 在数据处理准确性、分析结构化程度、洞察力方面表现都较为出色。


                        其对复杂查询的处理更稳定,更加贴合数据本身进行洞察,提供较高质量的分析,这种特性使其在为使用者提供可靠、深入的行业报告方面更具价值。



                        END

                        推荐阅读


                        阅读原文

                        跳转微信打开

                        Fish AI Reader

                        Fish AI Reader

                        AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

                        FishAI

                        FishAI

                        鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

                        联系邮箱 441953276@qq.com

                        相关标签

                        deep-searcher 向量数据库 开源 信息处理 PPIO
                        相关文章