LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”

2024-06-22 00:18 湖北

LlamaIndex团队Talk：

报告人：Jerry Liu, LlamaIndex co-founder/CEO，

报告时间：June 11, 2024

报告主题：“在复杂文档上构建高级的RAG”，

主题原文：“Building Advanced RAG Over Complex Documents”

报告概要内容如下：

技术报告强调了数据质量（RAG is only as Good as your Data）在构建高效RAG系统中的核心作用，并探讨了如何通过引入Agent的概念来克服RAG的局限性，实现更复杂、更动态的查询处理和任务执行。通过工作坊和实践指导，提供了将这些理论应用到实际构建中的途径。

数据质量基础：强调了“垃圾进，垃圾出”（Garbage in = Garbage Out）的原则，指出数据质量是任何生产级LLM应用的关键组成部分。

数据解析：不良的解析器会导致数据质量下降，即使是最优秀的LLM也会被格式混乱的文本或表格所困扰。

LlamaParse：一个专为构建复杂文档RAG而设计的特殊文档解析器，支持多种文档类型和功能。

数据分块：在分块文档时尽量保留语义相似的内容，并提出了不同级别的文本分割方法，以页面级别分块作为强基线。

数据索引：原始文本经常会混淆嵌入模型，建议不仅要嵌入原始文本，还要嵌入引用，并提倡多个嵌入指向同一文本块的做法。

简单RAG的挑战：简单RAG方法在处理简单问题和小型文档集时表现良好，但在生产环境中处理更复杂的问题和大型数据集时存在困难。

RAG的失败模式：包括在复杂数据上提出简单问题、跨多个文档提问以及提出复杂问题时的挑战。

RAG的局限性：RAG在单次尝试中缺乏对查询的理解、规划、工具使用、反思和错误纠正，且是无状态的。

Agent的优势：Agent系统的概念，它支持多轮对话、查询/任务规划层、与外部环境的工具接口、反思和个性化记忆。

Agent成分：构建Agent系统所需的成分，包括查询规划、记忆和工具使用。

Agent类型：简单和高级Agent，简单Agent成本和延迟较低，而高级Agent则相反。

核心组件：构建完整的Agent系统所需的最小必要成分包括查询规划、记忆和工具使用。

Agent推理循环：顺序推理、基于DAG的确定性规划和基于树的随机规划方法。

自我反思：使用反馈来改进Agent的执行并减少错误，包括人类反馈和LLM反馈。

额外要求：Agent系统的可观察性、可控性和可定制性，以及多Agent交互的定义。

详细报告内容：

对于RAG整个框架的更多技术，PaperAgent团队RAG专栏进行过详细的归纳总结：高级RAG之36技（术）。

高级RAG之36技试看私信获取：RAG专栏 高级RAG之36技试看：https://docs.qq.com/aio/DR0dBWm9WYlJNckxw?p=dIxns4m9ounpDQ9pRCV7zu

Fish AI Reader