多模态RAG怎么做？读懂多模态RAG看这一篇就够了！

一、多模态RAG综述

简介: 《Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-AugmentedGeneration》

多模态RAG步骤: 查询预处理、多模态数据库、检索策略(模态为中心)、融合机制、增强技术、生成阶段、训练策略。

1.创新点

提出了一个多模态RAG系统的通用框架。

并对多模态RAG系统进行了系统且全面的分析，涵盖了数据集、评估指标、基准测试、评估方法以及检索融合、增强和生成方面的创新

2.检索策略

检索策略是多模态RAG系统的核心部分，主要通过高效搜索和相似性检索来提升信息检索的准确性和效率。具体方法包括:

高效搜索和相似性检索: 使用最大内积搜索(MIPS)及其变体，如TPU-KNN、Scalable Nearest Neighbors(ScaNN)等，通过近似最近邻搜索提高检索速度。

模态中心检索: 根据模态特性优化检索效率，包括文本中心(如BM25、MiniLM)、视觉中心(如EchoSight、lmgRet)和视频中心(如iRAG、VideoRAG)的检索方法。

重排序和选择策略: 通过优化示例选择、改进相关性评分和应用过滤机制来提高检索质量。

例如，使用BERTScore、SSIM等多模态相似性度量进行重排序，以及通过硬负样本挖掘和共识过滤方法去除低质量数据。

3.融合机制

融合机制的目标是将来自不同模态的数据整合到统一的表示中，以支持跨模态推理。

主要方法包括:

分数融合与对齐: 通过将不同模态的数据转换为统一格式(如文本)或嵌入到共享语义空间中，实现模态间的对齐。

例如，使用CLIP Score或BLIP特征融合来衡量图像和文本的相关性。

基于注意力的机制: 动态加权跨模态交互，支持特定任务的推理。

例如，双流共注意力机制(如RAMM)和基于用户注意力的特征融合(如RAGTrans)。

统一框架和投影: 将多模态输入整合为连贯的表示。

例如，通过层次化交叉链和晚期融合处理医疗数据(如IRAMIG)，或通过将图像转换为文本描述以简化多模态输入(如SAM-RAG)。

4.增强技术

增强技术通过优化检索到的文档，提升多模态RAG系统的性能。主要方法包括:

上下文丰富化: 通过添加额外的上下文元素(如文本片段、图像标记或结构化数据)来增强检索到的知识，使其更适合生成任务。

例如，通过实体检索和查询重构来优化视觉问答(如MiRAG)。

自适应和迭代检索: 根据查询的复杂性动态调整检索过程。

例如，通过多轮检索策略逐步细化检索结果(如OMG-QA)，或通过反馈机制优化检索内容(如IRAMIG)。

5.生成方法

生成方法关注于提升多模态RAG系统的输出质量和连贯性。主要创新包括:

上下文学习(In-Context Learning): 利用检索到的内容作为少样本示例，增强模型的推理能力。

例如，通过检索相关驾驶经验来优化生成(如RAG-Driver)。

推理(Reasoning): 通过分解复杂推理任务为多个小步骤(如链式推理)，提升生成内容的逻辑性和准确性。

例如，通过多跳推理和证据整合来支持复杂问答(如RAGAR)。

指令调整(instruction Tuning): 针对特定任务调整生成模块，提升模型对指令的理解和执行能力。

例如，通过指令调整优化医学图像报告生成(如FactMM-RAG)

来源归因(Source Attribution): 确保生成内容能够追溯到具体的来源，提升系统的透明度和可信度。

例如，通过高亮显示支持证据的图像区域来归因(如VISA)。

6.训练策略

训练策略旨在优化多模态RAG系统的训练过程，提升模型的泛化能力和鲁棒性。主要方法包括：

对齐(Alignment): 通过对比学习(如InfONCE损失)优化多模态表示的对齐，确保正样本更接近、负样本更远离。

生成(Generation): 使用交叉熵损失训练自回归语言模型，或通过生成对抗网络(GAN)和扩散模型优化图像生成。

鲁棒性增强(Robustness): 通过注入噪声、使用硬负样本或知识蒸馏等方法，提升模型对噪声和错误数据的鲁棒性。

例如，通过Query Dropout增强生成器性能(如RA-CM3)

7.benchmark评估

8.数据集

二、多模态RAG

1.OmniSearch

简介: OmniSearch 是阿里巴巴通义实验室推出的一款多模态检索增强生成框架，具备自适应规划能力。

OmniSearch 能够动态拆解复杂问题，根据检索结果和问题情境调整检索策略，模拟人类在解决复杂问题时的行为方式，从而提升检索效率和准确性。

背景: 当面对动态复杂的问题时，传统多模态检索增强生成(RAG)技术往往表现出不足，比如无法适应实时变化的答案，或因检索方式僵化导致结果不够精准。

多模态RAG通过结合文本、图像等多种数据形式，为AI赋予了更强的知识获取能力。然而，现有系统仍面临两个主要问题:

非适应性检索问题: 传统RAG模型使用固定的检索流程，无法根据上下文或中间结果动态调整

检索负担过载: 单一检索查询常常包含多个模糊的检索需求，导致结果信息冗杂，关键内容反而被掩盖。

2.整体框架

Planning Agent(动态规划Agent)

每个计划的Action包括四个关键部分:自我思考、子问题、检索AP|、API查询

a.在每一步中，Planning Agent都理解在自我思考中给出问题和现实世界的反馈，然后仔细确定后续行动要解决的子问题。

b.子问题所需的知识类型，调用不同的检索API。

c.以类似于人类认知过程的方式，在问题解决过程中，Planning Agent自主生成各种潜在动作，包括：

提出额外的问题以澄清检索内容中的模糊或冲突部分; 细化检索query以获取更多的补充知识; 修改措辞子问题; 验证对当前子问题的回答; 提出下一个子问题。

d.总结最终答案。

Sub-question Solver(子问题求解器)

总结检索到的内容，并相应地解决子问题，然后将求解器生成的反馈提供给Planning Agent。根据计算资源的不同，可以采用更大或更小尺寸的MLLM。

基于OmniSearch的VQA示例

user query: 图中的车价格是多少?

3.创新点

Dyn-VQA 数据集: 真实场景的复杂模拟

动态规划能力

a.动态规划能力: OmniSearch 能够将复杂问题分解为子问题，并根据中间检索结果实时调整检索策略。

例如，在回答汽车价格问题时，模型会先通过图像检索确定汽车品牌，然后针对品牌信息进一步检索具体价格数据。

b.多工具灵活调用: OmniSearch 集成了文本检索、图像检索等多种工具，并能够根据问题需求选择最优的检索方式。

例如，对于涉及视觉信息的问题，模型优先调用图像检索模块，而针对文本信息则使用语言模型进行解答。

c.模块化设计: OmniSearch 的模块化结构支持灵活扩展和跨领域应用。

例如，它可以结合任意多模态模型(如 GPT-4V、Qwen-VL)，同时通过"即插即用"的设计理念优化现有系统的动态问答表现。

4.与传统RAG对比

动态问答数据集: Dyn-VQA

为了评估多模态RAG技术在动态场景中的表现，阿里团队创建了一个全新的数据集一Dyn-VQA。该数据集包含三种类型的问题：

快速变化的答案: 如“某位明星最新的电影是什么?”，需要实时更新的知识。

需要多模态知识的问题: 如“这个球队的标志是什么物体?”，需要结合图像和文本信息。

多跳推理问题: 如“这两位演员谁的票房更高?”，需要分步推理并结合多来源信息。

Dyn-VQA 数据集不仅覆盖多个领域，还模拟了真实世界中的复杂场景，是现有数据集中极具挑战性的代表。

答案迅速改变的问题

答案需要多模态的知识

多跳问题(需要子任务拆解，多步推理)

5.效果评估

整体性能:

OmniSearch(GPT-4V)取得了显著的领先成绩，F1-Recall 达到 50.03，超越其他 MLLM 以及0商用生成式搜索引擎。

OmniSearch(Qwen-VL-Chat)的表现也优于大规模 GPT-4V 结合两步 mRAG 方法的结果，表明 OmniSearch 在复杂问题分解与检索负载降低方面的优势。

不同子问题求解器的影响:

当使用 GPT-4V 作为 Qwen-VL-Chat 的子问题求解器时，OmniSearch 的性能显著提升，证明0了更强大的子问题求解器对模型整体性能的正面影响。

在更复杂的调用策略中，针对多模态问题使用 GPT-4V，而针对纯文本问题使用 GPT-4，这种组合进一步提升了模型性能。

未来，可探索如子问题输出框信息以引导更精准检索的策略。

检索路径规划的作用:

实验显示，使用 OmniSearch 自身作为子问题求解器不仅没有降低性能，反而提高了其问题解决能力，表明检索路径规划学习增强了模型的知识推理能力，带来了跨任务的收益。

成本与性能的权衡:

替换子问题求解器(如将 GPT-4V 替换为 Qwen-VL-Chat)会导致性能下降约 7.9%，但成本降0低近一半。

结果表明，在资源有限的情况下，应优先确保检索规划模型采用更强大的基础模型。

商用搜索引擎不足:

商用生成式搜索引擎在 Dyn-VQA 上表现较弱，即使是表现最好的 Gemini，也仅与 GPT-4V 的。

两步 mRAG 方法持平。

进一步分析发现，这些引擎缺乏多模态信息整合能力，例如无法正确关联问题中的指代词与图像中的对象。

三、慕尼黑大学-多模态RAG

简介: 《Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications》

背景: 当前，尽管针对纯文本 RAG 系统及其优化的研究已经十分广泛，但对于多模态 RAG 应用的研究却相对较少。

为此，本文将探索如何将多模态模型集成至RAG 系统中，即看一看结合图像和文本是否可以提高 RAG 的性能，并找出了这种系统的最佳配置。

多模态RAG系统作者构建了一个多模态RAG系统，该系统具备两种配置，一种是多模态嵌入和独立向量存储、图像摘要和联合向量存储。如下图所示:

1.研究方法

本文作者研究主要关注两个问题:

1)基于工业领域中的PDF文档，将单模态文本、单模态图像、文本+图像双模态放入RAG系统中，看一看文本+图像双模态是否能够提升RAG系统的性能?

2)如何优化多模态RAG系统?

为了回答这两个问题，本文作者首先选择了当前主流的两个多模态模型GPT4-Vision，LLaVA，然后手动标注了数据集和RAG系统测试集。

接着作者构建了一个多模态RAG系统(两种配置)，将文本和图像结合到一块儿。

最后作者按照RAG系统的6个评估指标进行实验对比。

2.benchmark

手动标注数据集使用了来自工业领域的 20 份 PDF 文档，例如用于可编程控制器、断路器和机器人等设备的手册和软件文档。

从这些文档中提取了文本和图像，共生成了 8540 个文本片段(每个片段平均长度为 225 个单词)和 8377 张图像，并按页对齐以确保上下文的准确性。

每条数据集是包含文本上下文、图像上下文、问题和答案的四元组。

RAG系统测试集手动标注了 100 对问答对。每个标注包含一个问题、参考答案以及用于检索相应文本和图像上下文的页码，从而形成多模态四元组。

问题设计旨在涵盖典型的工业任务，如操作程序、设备配置和故障排除，其中视觉上下文至关重要。

3.评估指标

答案正确性通过参考引导的成对比较来评估生成答案与参考答案的正确性，这是唯一依赖于存在真实答案的指标;

答案相关性评估生成答案与问题的相关性;

文本忠诚度衡量生成答案与检索到的文本上下文之间的一致性;

图像忠诚度评估生成答案与检索到的图像内容的符合程度;

文本上下文相关性评估检索到的文本上下文在回答问题时的相关性；

图像上下文相关性则评估检索到的图像与问题的相关性。

本文实验结果如下，可以发现结合文本和图像能够显著提升RAG系统的性能，尤其是在检索过程能够成功识别相关文本和图像时。

相比多模态嵌入，利用图像的文本摘要提供了更大的灵活性和优化空间，即多模态RAG系统采用图像摘要和联合向量存储架构会好一些。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签