即刻AI圈子 2024年07月23日
实现垂类 AI 搜索引擎 SOP? # 确定三个核心问题: 1. source list 从哪些地方检索数据 2. answer prompt 使用什么提示词模板回复 3. llm model 使用哪个大语...
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文详细介绍了实现垂类AI搜索引擎的标准操作流程(SOP),包括确定核心问题、搜索前query重写、RAG流程以及主要工程量,为构建高效搜索引擎提供了全面的技术指南。

🔍 确定核心问题:文章明确了source list的数据检索来源、answer prompt的回复模板以及llm model的语言模型选择,为搜索引擎的构建提供了基础框架。

✏️ 搜索前query重写:结合历史消息进行query的retrieve判断、指代消解和关键词提取,确保了搜索的准确性和相关性。

🚀 RAG流程:详细阐述了从检索结果获取到重排、内容详情提取以及LLM回复请求的全过程,为搜索引擎的实际运行提供了操作步骤。

🛠️ 主要工程量:文章详细介绍了内容源索引构建、source权重更新、多信息源重排框架以及chunk内容池和关键词库的构建,指出了搜索引擎开发中的关键工程挑战。

实现垂类 AI 搜索引擎 SOP?

# 确定三个核心问题:

1. source list 从哪些地方检索数据
2. answer prompt 使用什么提示词模板回复
3. llm model 使用哪个大语言模型回复

# 搜索前query rewrite:

1. 结合历史消息,判断当前 query 是否需要 retrieve
2. 结合历史消息,做指代消解,把代词替换成具体的名词
3. 从指代消解后的 query 提取关键词 keywords

# RAG 流程

1. 使用query + keywords 作为入参,从source list 获取检索结果(在线API检索+本地index检索),必要时可对 query + keywords 进行翻译,使用不同语言进行多轮检索
2. 检索结果聚合重排reranking
3. 获取重排后 top_k 条内容详情
4. 使用回复提示词 + 检索内容 + 历史消息作为 context,带上最新 query 请求 LLM 回复

# 主要工程量

1. 对内容源 build index

对于没有标准API的source,需要对source站点的数据构建索引。增量构建使用source的搜索框,存量构建使用搜索引擎网页快照,很难拿到某个 source 的全量数据

2. 更新 source 权重

系统预置权重 + 用户点击更新 source 权重,多信息源检索时依据 source 权重返回结果数量和初始排序

3. 多信息源重排

需要一个高效/快速的 reranking 框架,比如 FlashRank

4. 构建 chunk 内容池

对检索到的内容进行 chunk 拆分,存储向量数据库,挂载上下文请求 LLM 回答时,相似度匹配部分内容,避免暴力传输

5. 构建关键词库

定期分析历史 query,提取热搜关键词,构建关键词库。命中关键词库的 query,retrieve 环节走缓存

------

AI 搜索引擎,做一个容易,做好太难,细节太多,需要大量的雕花工作。

欢迎补充。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI搜索引擎 SOP query重写 RAG流程 工程挑战
相关文章