魔搭ModelScope社区 01月25日
统一多模态Embedding, 通义实验室开源GME系列模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

多模态数据的兴起给传统信息检索带来了挑战。为解决多模态检索中系统复杂和信息丢失的问题,通义实验室推出了GME模型。GME将文本、图像等多种模态数据整合到共享语义空间,实现直接比对检索,提升了效率和精度。该模型基于Qwen2-VL构建,采用对比学习和指令调优,适应不同检索任务。GME利用丰富的单模态和跨模态数据,并合成海量混合模态数据进行训练,在各种检索场景下表现出色。UMRB评测验证了GME在单模态、跨模态和混合模态检索中的有效性。目前,GME模型已在ModelScope平台开源。

💡GME模型旨在解决多模态检索中传统模型存在的不足,通过将不同模态的数据整合到统一的语义空间,实现直接比对和检索,从而提升检索效率和准确性。

📚GME基于Qwen2-VL多模态大语言模型构建,采用对比学习方法训练,每个样本包含查询、相关候选项及无关候选项,覆盖文本、图像和图文组合等多种数据类型,并通过指令调优适应不同检索任务。

📊GME作者团队构建了UMRB评测数据集,包含47个评测子集,覆盖了文本到文本、视觉相关以及混合模态等多种检索任务,GME模型在UMRB评测中表现优异,验证了其在多模态检索中的有效性。

🚀GME模型已在ModelScope平台开源,并提供了阿里云百炼大模型平台的推理服务,为多模态信息处理和检索技术的创新与应用落地提供了支持。

张延钊(恭常) 2025-01-22 18:59 浙江

多模态数据的兴起挑战了传统信息检索模型,多模态检索虽有Embedding模型助力,但在复杂场景下需多模型协同或转换数据,导致系统复杂且信息易丢失。

01


背景



随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。然而,实际应用中,用户的查询往往涉及多种模态的信息。例如,用户可能上传一张图片并附上一段文字说明,期望找到类似的多模态内容。


当前,多模态检索主要依赖于Embedding模型,如文本领域的BGE、GTE、E5,以及跨模态的CLIP模型。这些模型在单模态和跨模态相关性建模方面表现出色,但在复杂场景和组合搜索需求下,往往需要部署多个独立模型,或通过OCR和生成模型将视觉素材转换为文本,再进行检索。这不仅增加了系统的复杂度,还可能导致信息丢失。


02


GME统一多模态表征



为解决上述问题,通义实验室推出了GME(General MultiModal Embedding)统一多模态表征模型。GME将各种模态的数据整合到一个共享的语义空间中,使不同模态的数据能够直接比对和检索,显著提升了信息检索的效率和精准度。

GME

图1 不同模态数据高维空间统一表征示意图


GME基于Qwen2-VL多模态大语言模型构建,采用对比学习的方法进行训练。每个训练样本包含一个查询、一个相关候选项及多组无关候选项,覆盖文本、图像及图文组合等多种数据类型。通过指令调优,GME能够适应不同的检索任务,比如视觉问答(VQA)等,进一步增强了模型的表征能力。


在训练数据方面,GME不仅利用了丰富的单模态和跨模态数据,还通过大模型生成技术,合成了海量的混合模态相关性数据。这种数据增强策略确保了GME在各种检索场景下的优异表现。

图2 基于MLLM的多模态Embedding模型架构


统一多模态检索评测 (UMRB)

为系统评估模型在多种模态检索场景下的表现,GME作者团队构建了一个统一多模态检索评测数据集,命名为“通用多模态检索基准”(Universal Multimodal Retrieval Benchmark,UMRB)。该Benchmark包含47个评测子集,覆盖广泛的多模态检索任务。这些子集主要来源于之前针对不同子场景或子任务构建的专用数据集。UMRB包括以下几类数据:

1、BEIR评测集[5]:用于文本到文本的检索场景。

2、M-BEIR数据集:聚焦于视觉相关的检索场景。

3、混合模态数据集:涵盖M-BEIR未覆盖的检索任务。

4、文本到视觉文档搜索数据集(如ViDoRe[4]):扩展评测数据的覆盖范围,确保对模型通用性的全面评估。

在UMRB评测中,GME-Qwen2-VL系列模型表现优异。2B和7B规模的GME模型均超越了此前的基线模型,验证了其在单模态、跨模态及混合模态检索任务中的有效性。此外,GME在纯文本检索和富文本图片检索上也展现出强大的能力。在BEIR文本检索评测中,尽管多模态嵌入模型在文本任务上略逊于专门的纯文本模型,但GME在富文本图片检索(如论文PDF、财报等)中,无需经过OCR识别即可直接进行高效检索,取得了显著优势。

表3 UMRB评测结果


表4 ViDoRe LeaderBoard


03


模型使用方法



GME模型是通义基于多模态预训练大模型构建多模态Embedidng模型进行的初步探索,当前版本还有许多提升空间和技术改进方向。基于Qwen2-VL系列模型训练的General MultiModal Embedding(GME)系列模型现已在ModalScope平台开源,欢迎感兴趣的同学体验、交流和分享。通义实验室将继续致力于多模态信息处理与检索技术的创新与优化,推动信息检索、多模态RAG的发展与应用落地。


模型地址

gme-Qwen2-VL-2B-Instruct

https://modelscope.cn/models/iic/gme-Qwen2-VL-2B-Instruct


gme-Qwen2-VL-7B-Instruct

https://modelscope.cn/models/iic/gme-Qwen2-VL-7B-Instruct


04


阿里云多模态Embedding模型服务



通义实验室也在阿里云百炼大模型平台上推出推理性能更佳、垂直领域检索效果更优秀的公共云多模态Embedding模型服务multimodal-embedding-v1, multimodal-embedding-v1模型服务提供文本、图片、视频三种模态的表征能力,详情参考阿里云百炼大模型服务平台模型服务:


多模态Embedding模型服务

https://help.aliyun.com/zh/model-studio/developer-reference/multimodal-embedding-api-reference?spm=a2c4g.11186623.0.0.321c1d1cqmoJ5C


05


技术详解分享




点击阅读原文,即可跳转模型链接~




?点击关注ModelScope公众号获取

更多技术信息~



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态检索 GME模型 Qwen2-VL UMRB Embedding
相关文章