PaperAgent 2024年10月07日
一种将RAG、KG、VS、TF结合增强领域LLM性能的框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

SMART-SLIC框架旨在通过结合检索增强生成(RAG)、向量存储、知识图谱和张量分解来提升特定领域大型语言模型(LLMs)的性能。该框架通过构建特定领域数据集、知识图谱本体论和向量存储,并利用检索增强生成(RAG)过程,以提供结构化和非结构化的领域特定信息。SMART-SLIC RAG实现依赖于知识图谱和向量存储,将用户查询转化为向量嵌入,并检索最相似的文本。检索到的信息被添加到原始查询中,LLM利用这些上下文信息生成相关答案。SMART-SLIC框架还采用问题路由流程,根据查询类型选择相应的处理工具和流程。ReAct Agent处理流程包括ReAct Agent、工具执行器和结束节点,负责收集输入、做出决策并解释结果。该框架在实际应用中取得了显著成果,在问答测试中,使用RAG时,GPT-4-instruct模型回答问题的准确率达到97%,而没有使用RAG时,模型有40%的问题未回答,回答的问题准确率仅为20%。

🤔 **特定领域数据集构建:** SMART-SLIC框架从由主题专家(SME)选定的核心文档开始,代表了想要构建数据集的特定领域。利用SCOPUS、Semantic Scholar和OSTI等授权API,通过引用和参考文献网络扩展数据集。为了保持核心数据集的中心质量和主题一致性,采用了几种修剪策略来删除与核心文档无关的文档。

📊 **降维与潜在结构提取:** 通过非负张量分解从数据集中提取潜在结构,使用T-ELF工具进行文档聚类,并自动确定最佳聚类数量。

🗺️ **知识图谱本体论构建:** 将T-ELF提取的特征和文档元数据映射成一系列头、实体和尾关系,形成方向三元组,然后注入Neo4j知识图谱。知识图谱包含了文档元数据以及从文档中提取的潜在特征。

🗃️ **向量存储组装:** 将文档向量化后存入Milvus向量数据库,以支持RAG过程。文档的全文被分割成较小的段落,并且每个段落都被赋予一个整数ID,以指示其在原始文档中的位置。

🤖 **检索增强生成(RAG)流程:** SMART-SLIC RAG实现依赖于知识图谱(KG)和向量存储(VS)来提供结构化和非结构化的领域特定信息。当用户提出问题时,LLM首先将查询转化为向量嵌入,然后与现有文本进行比较以找到最相似的文本。检索到的信息被添加到原始查询中,LLM利用这些上下文信息生成相关答案。最后,LLM以自然语言构建最终答案,向用户解释答案。

🚦 **问题路由流程:** SMART-SLIC采用问题路由流程来确定用户查询的类型,并根据查询类型选择相应的处理工具和流程。问题分为“通用查询”和“特定文档查询”。通用查询调用ReAct Agent处理流程。特定文档查询则调用检索查询或合成查询。理解用户的问题对于将信息路由到适当的工具集和后续流程至关重要。

🎭 **ReAct Agent处理流程:** ReAct Agent处理流程包括ReAct Agent、工具执行器和结束节点。ReAct Agent负责收集输入、做出可操作的决策并解释结果。工具执行器接收来自代理的工具名称和输入参数,调用相应的功能并返回输出。结束节点标志着Reason-Act循环的完成,将最终输出返回给用户。

📈 **SMART-SLIC框架评估结果:** 该框架在实际应用中取得了显著成果,在问答测试中,使用RAG时,GPT-4-instruct模型回答问题的准确率达到97%,而没有使用RAG时,模型有40%的问题未回答,回答的问题准确率仅为20%。

2024-10-07 07:58 河南

SMART-SLIC框架:将RAG结合向量存储(Vector Stores)、知识图谱(Knowledge Graphs)和张量分解(Tensor Factorization)来增强特定领域的大型语言模型(LLMs)的性能。

SMART-SLIC框架:旨在将RAG结合向量存储(Vector Stores)、知识图谱(Knowledge Graphs)和张量分解(Tensor Factorization)来增强特定领域的大型语言模型(LLMs)的性能。

SMART-SLIC系统框架

SMART-SLIC框架的关键组成部分和操作流程:包括构建特定领域的数据集、知识图谱本体论、向量存储以及检索增强生成(RAG)过程:

A. 特定领域的数据集:

B. 降维:

C. 知识图谱本体论:

D. 向量存储组装:

E. 检索增强生成RAG:

SMART-SLIC框架中的RAG实现依赖于知识图谱(KG)和向量存储(VS)来提供结构化和非结构化的领域特定信息。

当用户提出问题时,LLM首先将查询转化为向量嵌入,然后与现有文本进行比较以找到最相似的文本。

检索到的信息被添加到原始查询中,LLM利用这些上下文信息生成相关答案。

最后,LLM以自然语言构建最终答案,向用户解释答案。

RAG流程图

SMART-SLIC采用问题路由流程来确定用户查询的类型,并根据查询类型选择相应的处理工具和流程。

问题分为“通用查询”和“特定文档查询”。通用查询调用ReAct Agent处理流程。

特定文档查询则调用检索查询或合成查询。

理解用户的问题对于将信息路由到适当的工具集和后续流程至关重要。

用户查询路由概览

ReAct Agent处理流程包括ReAct Agent、工具执行器和结束节点。

ReAct Agent负责收集输入、做出可操作的决策并解释结果。

工具执行器接收来自代理的工具名称和输入参数,调用相应的功能并返回输出。

结束节点标志着Reason-Act循环的完成,将最终输出返回给用户。

ReAct Agent的节点和工具

SMART-SLIC框架在实际应用中的表现,并提供了评估结果:

A. 数据集:

B. 潜在特征提取:

C. 向量存储:

D. 知识图谱:

知识图谱Schema

关键词“网络犯罪”的图形搜索。返回单个关键词(绿色)以及相关联的文档(浅蓝色)。文档还链接了附属机构(黄色)和机构所在的国家(红色)。

E. 问答验证:

F. 复杂问题解答:

两种问题类型,文档和主题,展示了使用SMART-SLIC RAG和不使用RAG时,LLM的尝试百分比和正确百分比。

https://arxiv.org/pdf/2410.02721Domain-Specific Retrieval-Augmented GenerationUsing Vector Stores, Knowledge Graphs, and Tensor Factorization

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SMART-SLIC 检索增强生成 RAG 向量存储 知识图谱 特定领域 LLMs
相关文章