PaperAgent 2024年11月11日
英伟达又来卷多模态向量,MM-Embed强势登顶!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达开源MM-Embed,在多模态检索基准上表现出色,利用MLLMs实现通用多模态检索,涵盖多种任务和解决方案

🎯英伟达开源MM-Embed,在多模态检索基准上性能先进

💡探索微调基于MLLM的通用多模态检索器,提示MLLM重新排序

🔍解决模态感知硬负样本挖掘问题,增强文本检索能力

📄使用MLLMs对检索到的候选文档进行重排

2024-11-11 09:00 湖北

英伟达于近期开源了通用多模态检索技术MM-Embed,它在涵盖多个领域和任务的多模态检索基准M-BEIR上实现了最先进的性能,同时也在MTEB检索基准上超越了先进的文本检索模型NV-Embed-v1,排名Top5。

主要评测结果:报告了所有数据集的R@5,除了Fashion200K和FashionIQ,报告了R@10。单模态查询和多模态查询的任务分别表示任务1-5和6-8。对于MTEB文本检索,报告了从15个检索任务中平均得出的nDCG@10。

利用多模态大型语言模型(MLLMs)来实现通用多模态检索:

通用多模态检索的说明,支持包含指令、查询和多模态格式文档的多样化任务。在这项工作中,探索微调基于MLLM(多语言大型模型)的通用多模态检索器MM-Embed,并提示MLLM进行重新排序。

1. 模态感知硬负样本挖掘

由Mrand(NV-Embed-v1)挖掘的模态感知负样本示例。观察到,模态错误的负样本与查询具有相似的语义含义,而信息需求不满意的负样本与正确答案相比显示出准确性较低的信息。

2. 持续的文本到文本检索微调

3.  使用MLLMs进行重排

组合图像检索和重排任务的Top-1候选结果。在许多情况下,检索和重排产生的Top-1结果与标记的正样本不同,但似乎是正确的,因为每个查询只有一个标记的正样本候选。

https://arxiv.org/pdf/2411.02571v1MM-EMBED: UNIVERSAL MULTIMODAL RETRIEVAL WITH MULTIMODAL LLMShttps://huggingface.co/nvidia/MM-Embed.

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

英伟达 多模态检索 MLLMs 文本检索
相关文章