2024-11-11 09:00 湖北
英伟达于近期开源了通用多模态检索技术MM-Embed,它在涵盖多个领域和任务的多模态检索基准M-BEIR上实现了最先进的性能,同时也在MTEB检索基准上超越了先进的文本检索模型NV-Embed-v1,排名Top5。
主要评测结果:报告了所有数据集的R@5,除了Fashion200K和FashionIQ,报告了R@10。单模态查询和多模态查询的任务分别表示任务1-5和6-8。对于MTEB文本检索,报告了从15个检索任务中平均得出的nDCG@10。
利用多模态大型语言模型(MLLMs)来实现通用多模态检索:
通用多模态检索的说明,支持包含指令、查询和多模态格式文档的多样化任务。在这项工作中,探索微调基于MLLM(多语言大型模型)的通用多模态检索器MM-Embed,并提示MLLM进行重新排序。
目标:将用户查询和任务指令映射到与多模态文档相同的语义空间,以便进行k-最近邻搜索。
微调过程:使用特定任务的指令作为指导,微调MLLM-based检索器,以捕捉检索任务背后的隐含意图。给定用户查询、相关和负样本文档,通过最小化InfoNCE损失来微调模型。
1. 模态感知硬负样本挖掘
问题:在多模态检索中,需要考虑用户指定的任务指令中期望的模态(文本、图像或交织的文本-图像)。
解决方案:模态感知硬负样本挖掘方法,以指导模型检索符合用户信息需求和偏好模态的候选文档。
由Mrand(NV-Embed-v1)挖掘的模态感知负样本示例。观察到,模态错误的负样本与查询具有相似的语义含义,而信息需求不满意的负样本与正确答案相比显示出准确性较低的信息。
2. 持续的文本到文本检索微调
目的:由于文本到文本检索仍然是最常用的检索任务之一,进一步微调模型以增强其文本检索能力。
过程:在多个公共文本到文本检索任务上继续微调模型,包括MS MARCO、HotpotQA、Natural Question等。
3. 使用MLLMs进行重排
目标:使用MLLMs对通用多模态检索器检索到的前k个候选文档进行重排。
方法:将重排任务构建为一系列真假问题,使用Softmax操作计算相关性得分,以用于重排。
组合图像检索和重排任务的Top-1候选结果。在许多情况下,检索和重排产生的Top-1结果与标记的正样本不同,但似乎是正确的,因为每个查询只有一个标记的正样本候选。
https://arxiv.org/pdf/2411.02571v1
MM-EMBED: UNIVERSAL MULTIMODAL RETRIEVAL WITH MULTIMODAL LLMS
https://huggingface.co/nvidia/MM-Embed.
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。