清华Hyper-RAG：利用超图建模高阶关系，让DeepSeek/Qwen生成质量飙升12.3%

2025-04-19 15:15 湖北

Hyper-RAG相比Light RAG的性能提升了35.5%。轻量级版本Hyper-RAG-Lite的检索速度是Light RAG的两倍，并且性能提升了3.3%

大模型在教育、金融和医学等多个领域引发了变革，但由于幻觉，可能引发不良后果，现有的RAG方法在处理复杂关系和高阶交互方面存在明显局限性，导致信息丢失、检索效率低下和处理复杂查询能力不足等问题，限制了在高风险领域（如医学诊断）中的应用。

数据中复杂相关性建模的示意图：a. 现实世界的实体空间，展示了数据集中存在的各种实体。b. 这些实体之间潜在的复杂相关性，包括低阶相关性（如成对相关性或自相关性）以及涉及三个或更多实体之间交互的高阶相关性。c. 使用圆圈表示实体之间的相关性，以可视化实体相关性。结构被建模为2-均匀超图，强调成对连接。另一个示例展示了三个和四个实体之间的相关性，分别用圆圈包围三个和四个实体。

为了解决LLMs的幻觉问题，清华&西安交大等提出了Hyper-RAG方法。该方法通过构建超图来全面捕捉数据中的成对（pairwise）和非成对（beyond-pairwise）关系，从而为LLMs提供更丰富的先验知识，减少幻觉。

具体来说，Hyper-RAG包括以下几个关键步骤：

知识提取：从原始数据集中提取实体、低阶（成对）关系和高阶（多实体）关系，并构建超图结构。超图利用超边（hyperedges）连接任意数量的节点，能够表示多实体之间的复杂关系。

知识索引：使用向量数据库存储实体的嵌入表示，以及超图数据库存储结构化信息，包括低阶和高阶关系。

知识检索与LLMs增强：在问答过程中，从用户问题中提取关键词，利用超图结构检索相关知识，并将其作为先验知识输入给LLMs，以生成更准确、更可靠的回答。

从原始语料库中提取实体和相关性的示意图：深棕色的方框表示实体，蓝色箭头表示实体之间的低阶相关性，红色箭头表示高阶相关性。黄色方框包含相应实体或其相关性的原始描述。

通过一系列实验验证了Hyper-RAG的有效性，使用了九个不同领域的数据集，包括医学、数学、农业、金融等，并选择了六个主流的LLMs进行测试：GLM-4-Air、Doubao-1.5-Pro、LLaMa-3.3-70B、Qwen-Plus、GPT-4o mini 、DeepSeek-V3。

性能提升：实验结果表明，Hyper-RAG平均提升了LLMs 12.3%的准确率，并且在复杂问题上表现更为稳定。与Graph RAG和Light RAG相比，Hyper-RAG分别额外提升了6.3%和6.0%的性能。

复杂问题处理：随着问题复杂度的增加，现有LLMs和RAG方法的性能显著下降，而Hyper-RAG能够保持稳定的性能水平。例如，在三阶段复杂问题上，Hyper-RAG相对于直接使用LLMs的性能提升达到了15.0%。

跨领域适应性：在九个不同领域的数据集上，Hyper-RAG平均性能提升了35.5%，尤其是在法律、农业和金融领域表现突出。

知识表示策略：通过对比不同的知识表示方法（仅使用原始数据、仅低阶关系、仅高阶关系等），实验发现同时使用低阶和高阶关系的Hyper-RAG表现最佳，证明了高阶关系在提升性能中的重要性。

效率分析：Hyper-RAG在保持高性能的同时，检索速度比Light RAG快两倍，并且性能提升了3.3%。此外，轻量级版本Hyper-RAG-Lite在检索速度上进一步提升，同时保持了较好的性能。

更多信息：《动手设计AI Agents：CrewAI版》、《高级RAG之36技》、新技术实战：中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日报/月报、最新技术热点追踪解读（GPT4-o/数字人/MCP/Gemini 2.5 Pro）

https://arxiv.org/pdf/2504.08758Combating LLM Hallucinations using Hypergraph-Driven Retrieval-Augmented Generationhttps://github.com/iMoonLab/Hyper-RAG

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签