PaperAgent 2024年09月11日
下一代RAG:MemoRAG
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MemoRAG 是一款由智源研究院和中国人民大学高瓴人工智能学院联合推出的创新 RAG(Retrieval-Augmented Generation)框架,它基于高效、超长记忆模型,并提供基于内存的数据接口,适用于多种用途的应用程序。MemoRAG 能够实现对整个数据库的全局理解,通过从记忆中回忆与查询相关的线索来增强证据检索,从而产生更准确、更丰富的上下文响应。

🤔 **全局记忆:** MemoRAG 可以处理高达 100 万个 token 的单一上下文,为庞大的数据集提供全面的了解,突破了传统 RAG 系统在处理长上下文方面的局限性。

🚀 **可优化与灵活:** MemoRAG 可以轻松适应新任务,仅需几个小时的额外训练即可实现优化性能,展现出极强的适应性和可扩展性。

💡 **上下文线索:** MemoRAG 从全局记忆中生成精确线索,将原始输入与答案连接起来,并从复杂数据中解锁隐藏的洞察,使结果更具解释性和可信度。

⚡️ **高效缓存:** MemoRAG 通过支持缓存分块、索引和编码,将上下文预填充速度提高多达 30 倍,显著提升了检索效率。

🔄 **上下文重用:** MemoRAG 可以一次性编码长上下文,并支持重复使用,提高需要重复数据访问的任务的效率,避免重复计算。

📊 **卓越性能:** MemoRAG 在多个基准数据集上超越了所有基线模型,展示了其强大的领域泛化能力,在处理超长上下文和解决复杂任务方面展现出显著优势。

2024-09-11 10:46 湖北

BAAI智源出品,优于RQ-RAG、BGE-M3、Stella-v5、HyDE、Full

MemoRAG是一个建立在高效、超长记忆模型之上的创新 RAG(Retrieval-Augmented Generation)框架,由智源研究院北京人工智能研究院)与中国人民大学高瓴人工智能学院联合推出并开源。

MemoRAG:通过记忆启发的知识发现迈向下一代RAG,为 RAG 提供基于内存的数据接口,适用于多种用途的应用程序!

MemoRAG与主要处理具有明确信息需求查询的标准 RAG 不同,MemoRAG利用其记忆模型实现对整个数据库的全局理解。通过从记忆中回忆与查询相关的线索,MemoRAG增强了证据检索,从而产生更准确、更丰富的上下文响应。

在处理需要对整个数据库进行高级理解的查询时,标准RAG与MemoRAG之间的比较,以《哈利·波特》书籍作为数据库。左侧图,由于输入查询的隐含性质,标准RAG难以准确定位所需的证据,导致答案不够准确。右侧图MemoRAG构建了覆盖整个数据库的全局记忆。当提出查询时,MemoRAG 首先回忆相关线索,使有用的信息得以检索,从而得到一个精确且全面的答案。

MemoRAG特点

在三个基准上测试了MemoRAG,使用了三种不同的生成器(Llama3-8B-Instruct-8K、Phi-3-mini-128K、Mistral-7B-Instruct-v0.2-32K),得出以下结论: 

主要实验结果。每个版块中最好的结果以粗体显示。这些实验中使用的记忆模型是基于 Mistral-7B-Instruct-v0.2-32K 训练的,可在 HuggingFace 上获取。

MemoRAG使用

可以直接用 HuggingFace 模型初始化。通过该MemoRAG.memorize()方法,记忆模型可以在较长的输入上下文中构建全局记忆。

from memorag import MemoRAG
# Initialize MemoRAG pipelinepipe = MemoRAG( mem_model_name_or_path="TommyChien/memorag-mistral-7b-inst", ret_model_name_or_path="BAAI/bge-m3", gen_model_name_or_path="mistralai/Mistral-7B-Instruct-v0.2", # Optional: if not specify, use memery model as the generator cache_dir="path_to_model_cache", # Optional: specify local model cache directory access_token="hugging_face_access_token", # Optional: Hugging Face access token beacon_ratio=4)
context = open("examples/harry_potter.txt").read()query = "How many times is the Chamber of Secrets opened in the book?"
# Memorize the context and save to cachepipe.memorize(context, save_dir="cache/harry_potter/", print_stats=True)
# Generate response using the memorized contextres = pipe(context=context, query=query, task_type="memorag", max_new_tokens=256)print(f"MemoRAG generated answer: \n{res}")

运行上述代码时,编码后的键值 (KV) 缓存Faiss 索引分块段落都存储在指定的 中save_dir。之后,如果再次使用相同的上下文,则可以快速从磁盘加载数据:

pipe.load("cache/harry_potter/", print_stats=True)

通常,加载缓存权重非常高效。例如,使用内存模型对200K令牌上下文进行编码分块和索引大约需要35秒但从缓存文件加载时只需1.5秒

摘要任务

要执行摘要任务,请使用以下脚本:

res = pipe(context=context, task_type="summarize", max_new_tokens=512)print(f"MemoRAG summary of the full book:\n {res}")

https://github.com/qhjqhj00/MemoRAGhttps://arxiv.org/pdf/2409.05591MemoRAG: Moving Towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MemoRAG RAG 记忆模型 知识发现 人工智能
相关文章