原创快来关注➡️ 2025-05-30 17:51 浙江

从粗到细“看懂”图像内容

在真实业务场景中，大量关键信息都藏在图像、表格、设计稿中。这些“视觉语言”，对 AI 来说不仅是理解的挑战，更是推理能力的终极考验。

如何在复杂的视觉文档知识库中检索关键信息，并精细化推理给出答案？通义实验室自然语言智能团队发布并开源了 VRAG-RL——视觉感知驱动的多模态RAG推理框架。

它不仅能“看见”文档，更能像人一样“边看边想”。从粗粒度观察到细粒度聚焦，一步步提取关键信息，完成复杂检索推理任务。

左右滑动查看更多效果

传统的检索增强型生成（RAG）方法在处理视觉丰富信息时面临着诸多挑战。一方面，基于文本的 RAG 方法难以应对图像、图表、设计稿等视觉内容，缺乏对视觉数据的理解和推理能力；另一方面，现有的视觉 RAG 方法大多依赖于固定的检索-生成流程，限制了模型在复杂任务中的动态推理表现，难以充分挖掘视觉信息中蕴含的关键知识。

为了解决这些问题，VRAG-RL 从强化学习赋能多模态智能体训练、视觉感知机制设计以及检索与推理协同优化三个维度进行了系统性的创新，构建了一种能够主动感知、动态推理并高效检索的新型视觉增强生成框架。

VRAG-RL 彻底革新了传统的检索生成范式，引入了多样化的视觉感知动作，其中包括区域选择、裁剪、缩放等操作。这些动作使视觉语言模型（VLMs）能够从粗粒度到细粒度逐步聚焦信息密集区域，精准提取关键视觉信息。

例如，在处理复杂的图表或布局时，模型可以先从整体图像中提取大致信息，然后逐步聚焦到图像中的关键区域，通过裁剪和缩放操作，获取更清晰、更详细的视觉信息。这种从粗粒度到细粒度的感知方式，不仅提高了模型对视觉信息的理解能力，还显著提升了检索效率，使模型能够更快速定位与问题相关的图像内容。

在训练过程中，VRAG-RL 采用多专家采样策略，大规模模型负责确定整体的推理路径，专家模型则在大规模模型的指导下，对图像中的关键区域进行精确标注。结合大规模模型的推理能力和专家模型的精确标注能力，模型能够在训练过程中学习到更有效的视觉感知策略，从而在实际应用中表现出更强的信息提取与逻辑推理能力。

VRAG-RL 的细粒度奖励机制将检索效率、模式一致性与生成质量三方面因素融合，引导模型在与搜索引擎的交互中不断优化其检索与推理路径。

检索效率奖励：借鉴信息检索领域广泛使用的 NDCG（Normalized Discounted Cumulative Gain）指标，激励模型优先检索相关度高的图像内容，快速构建高质量上下文；

模式一致性奖励：确保模型遵循预设的推理逻辑路径，避免因模式偏差导致生成结果偏离任务目标；

生成质量奖励：通过评估模型对生成答案的质量打分，引导模型输出更准确、连贯的答案。

这种多维度奖励机制实现了检索与推理的双向驱动——高效的检索为深入推理提供支撑，而推理反馈又进一步指导模型优化检索策略，形成闭环优化。

VRAG-RL 基于强化学习的训练策略，引入业界领先的 GRPO 算法，让视觉语言模型（VLMs）在与搜索引擎的多轮交互中，持续优化检索与推理能力。

同时，通过本地部署搜索引擎模拟真实世界应用场景，实现搜索引擎调用零成本，模型训练更加高效。这种训练方式，不仅提升了模型的泛化能力，使其在不同领域、不同类型的视觉任务中都能表现出色，为多模态智能体的训练提供全新的解决方案。

VRAG-RL 在多个视觉语言基准数据集上均取得了显著优于现有方法的性能表现，任务类型涵盖从单跳到多跳推理、从纯文本理解到图表识别和复杂布局解析等多种视觉丰富场景。实验结果表明，VRAG-RL 在处理视觉信息时展现出更强的检索能力、推理深度以及生成质量。

无论是在传统的 prompt-based 方法（如 Vanilla RAG 和 ReAct RAG），还是在基于强化学习的方法（如 Search-R1）基础上，VRAG-RL 都展现出了更出色的综合性能。

在传统的RAG方法中，模型通常在进行一次或多次检索后直接生成答案。然而，在处理复杂的视觉任务时，这种方法往往表现不佳，因为它缺乏对视觉信息的深入理解和多轮推理能力。

相比之下，我们的VRAG-RL方法支持多轮交互。具体来说，通过定义视觉感知动作空间，VRAG-RL能够在推理阶段逐步聚焦于信息密集区域，从而实现从粗到细的信息获取。同时，该方法通过优化检索效率和推理路径，在保持高效率的同时，显著提升了模型在视觉任务上的性能。

⬆️ VRAG-RL实现多步迭代推理，细粒度提取视觉元素，逐步解决复杂问题

⬆️ VRAG-RL单跳推理，快速定位相关区域，高效解决简单视觉问题

我们已将 VRAG-RL 的完整技术方案发布在 arXiv，并将全部源代码开源至 GitHub。为了便于大家快速体验与二次开发，我们在项目中提供了可一键运行的 Demo 示例，支持本地快速部署。你可以轻松使用自己的文档构建视觉 RAG 推理服务，探索多模态智能体在复杂图像理解任务中的强大能力。

Paper：arxiv.org/pdf/2505.22019

Github：github.com/Alibaba-NLP/VRAG

💬 你怎么看？

相比传统RAG，VRAG-RL哪里让你最感兴趣

评论区点赞前2可获得定制T恤

活动截止时间：2025年6月3日17:00

推荐阅读

360° 视频也能“听见方向”了？

语音识别怕噪声？CoGenAV 音画同步来破局！

阅读原文

跳转微信打开

语音识别怕噪声？CoGenAV 音画同步来破局！

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签