PaperAgent 01月07日
手机也能玩RAG?谷歌EdgeRAG做到了~
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

EdgeRAG系统针对边缘设备内存和计算能力有限的挑战,提出了一种优化的RAG方案。它通过选择性存储和自适应缓存策略,仅存储检索真正需要的嵌入向量,减少冗余计算。该系统首先对文本语料库进行分块和聚类,存储聚类中心,并根据成本决定是否存储数据块的嵌入向量。在检索时,优先查找聚类中心,然后检查是否存在预计算的嵌入向量或缓存。EdgeRAG在Nvidia Jetson Orin Nano平台上进行了评估,结果显示,在保持生成质量的同时,显著提高了检索速度并减少了内存占用。

💾 EdgeRAG系统通过选择性存储机制,只存储检索过程中真正需要的嵌入向量,有效缓解了边缘设备内存有限的问题。

🗄️ 系统采用自适应缓存策略,减少冗余计算,并进一步优化了数据检索的延迟。

📍 EdgeRAG首先将文本语料库分割成小块并聚类,存储聚类中心,并根据生成嵌入向量的成本决定是否存储数据块的嵌入向量。

🔍 在检索过程中,EdgeRAG优先查找与查询嵌入向量最相似的聚类中心,然后根据缓存情况加载或重新生成嵌入向量,最后检索相关数据块。

⏱️ 实验表明,EdgeRAG在时间到第一个标记(TTFT)延迟方面比基线IVF索引平均快1.8倍,对于大型数据集则快3.82倍,同时保持了与平面索引基线相似的生成质量。

2025-01-07 12:23 湖北

边缘设备(如手机)因内存和计算能力有限,运行RAG面临巨大挑战;

例如:一个存储了523万条记录的向量数据库的索引大小为18.5 GB,而手机通常只有4-12 GB的主内存。

RAG的Pipeline

因此,谷歌等提出一种EdgeRAG系统:通过选择性存储,不是所有向量都存储,只有在检索过程中真正需要的嵌入向量才会被生成和存储,此外,还采用自适应缓存策略,以减少冗余计算并进一步优化延迟。

EdgeRAG索引过程

EdgeRAG检索过程

EdgeRAG插入与删除


平台与数据集:在Nvidia Jetson Orin Nano平台上进行评估,使用了来自BEIR基准测试套件的六个数据集.

EdgeRAG在时间到第一个标记(TTFT)延迟方面比基线IVF索引平均快1.8倍,对于大型数据集则快3.82倍。同时,EdgeRAG在保持与平面索引基线相似的生成质量的同时(仅有 5% 以内的差异),允许所有评估的数据集适应内存并避免内存抖动.

https://arxiv.org/pdf/2412.21023EdgeRAG: Online-Indexed RAG for Edge Devices

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

EdgeRAG 边缘设备 RAG 索引 内存优化
相关文章