2024-07-03 00:01 湖北
今年四月微软发布了GraphRAG项目技术报告,PaperAgent专门发过推文进行详细介绍,时隔2个多月,微软正式开源了GrapRAG项目!
微软多部门联合推出GraphRAG项目:全面性和多样性方面显著优于原生大模型RAG
GraphRAG项目的知识模型:
Document
- 系统中的输入文档,代表CSV中的单独行或者单独的.txt 文件。
TextUnit
- 要分析的文本块。这些块的大小、重叠度都可以配置。
Entity
- 从 TextUnit 中提取的实体,代表人物、地点、事件或您提供的其他实体模型。
Relationship
- 两个实体之间的关系。
Covariate
- 提取的声明信息,其中包含有关可能受时间限制的实体的陈述。
Community Report
- 一旦生成实体,就对它们执行分层社区检测,并为该层次结构中的每个社区生成报告。
Node
- 包含已嵌入和聚集的实体和文档的呈现图形视图的布局信息。
如何将文本文档转换为GraphRAG知识模型,以及主要步骤:
编写TextUnit( Compose TextUnits)
图谱提取(Graph Extraction)
图谱增强(Graph Augmentation)
社区总结( Community Summarization)
文档处理(Document Processing)
网络可视化(Network Visualization)
https://microsoft.github.io/graphrag/
https://github.com/microsoft/graphrag
在整个GraphRAG流程中,也会涉及Embedding、Chunking等技术,PaperAgent团队RAG专栏进行过详细的归纳总结:高级RAG之36技(术)。
点击“阅读原文”试看RAG专栏