2025-04-19 15:15 湖北
Hyper-RAG相比Light RAG的性能提升了35.5%。轻量级版本Hyper-RAG-Lite的检索速度是Light RAG的两倍,并且性能提升了3.3%
为了解决LLMs的幻觉问题,清华&西安交大等提出了Hyper-RAG方法。该方法通过构建超图来全面捕捉数据中的成对(pairwise)和非成对(beyond-pairwise)关系,从而为LLMs提供更丰富的先验知识,减少幻觉。
具体来说,Hyper-RAG包括以下几个关键步骤:
知识提取:从原始数据集中提取实体、低阶(成对)关系和高阶(多实体)关系,并构建超图结构。超图利用超边(hyperedges)连接任意数量的节点,能够表示多实体之间的复杂关系。
知识索引:使用向量数据库存储实体的嵌入表示,以及超图数据库存储结构化信息,包括低阶和高阶关系。
知识检索与LLMs增强:在问答过程中,从用户问题中提取关键词,利用超图结构检索相关知识,并将其作为先验知识输入给LLMs,以生成更准确、更可靠的回答。
通过一系列实验验证了Hyper-RAG的有效性,使用了九个不同领域的数据集,包括医学、数学、农业、金融等,并选择了六个主流的LLMs进行测试:GLM-4-Air、Doubao-1.5-Pro、LLaMa-3.3-70B、Qwen-Plus、GPT-4o mini 、DeepSeek-V3。
性能提升:实验结果表明,Hyper-RAG平均提升了LLMs 12.3%的准确率,并且在复杂问题上表现更为稳定。与Graph RAG和Light RAG相比,Hyper-RAG分别额外提升了6.3%和6.0%的性能。
复杂问题处理:随着问题复杂度的增加,现有LLMs和RAG方法的性能显著下降,而Hyper-RAG能够保持稳定的性能水平。例如,在三阶段复杂问题上,Hyper-RAG相对于直接使用LLMs的性能提升达到了15.0%。
跨领域适应性:在九个不同领域的数据集上,Hyper-RAG平均性能提升了35.5%,尤其是在法律、农业和金融领域表现突出。
知识表示策略:通过对比不同的知识表示方法(仅使用原始数据、仅低阶关系、仅高阶关系等),实验发现同时使用低阶和高阶关系的Hyper-RAG表现最佳,证明了高阶关系在提升性能中的重要性。
效率分析:Hyper-RAG在保持高性能的同时,检索速度比Light RAG快两倍,并且性能提升了3.3%。此外,轻量级版本Hyper-RAG-Lite在检索速度上进一步提升,同时保持了较好的性能。
https://arxiv.org/pdf/2504.08758
Combating LLM Hallucinations using Hypergraph-Driven Retrieval-Augmented Generation
https://github.com/iMoonLab/Hyper-RAG
推荐阅读
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。