我爱计算机视觉 2024年10月12日
EMNLP 2024 | 阿里通义实验室提出MLLM多图能力评估基准MIBench
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里通义实验室提出MLLM多图能力评估基准MIBench,涵盖多图指令、多模态外部知识及多模态上下文学习等场景的多个子任务,对现有MLLMs进行评估并分析其性能。

🎯MIBench是阿里通义实验室提出的新大规模基准测试集,包含13K条高质量测试样本,用于全面评估MLLMs在多图场景的能力。

🌐MIBench涵盖多图指令、多模态外部知识及多模态上下文学习等3个典型多图场景的13个细分子任务,并对各子任务进行了详细介绍。

📊数据集构建包括图片来源、选项生成、知识采样、质量控制等方面,采用多项选择题形式并循环设置正确选项进行评估。

💻作者对多个开源及闭源模型进行评估与分析,发现开源MLLMs与GPT - 4o存在性能差距,且不同子任务存在不同问题及性能瓶颈。

2024-10-12 11:25 江苏




关注公众号,发现CV技术之美




本篇分享 EMNLP 2024 论文MIBench: Evaluating Multimodal Large Language Models over Multiple Images,阿里通义实验室提出MLLM多图能力评估基准MIBench。


动机

近年来,多模态大模型 (MLLMs) 在视觉描述、问答、推理等多种视觉-语言任务上展现出卓越的性能,也涌现出一批基准数据集工作,如MME、MMBench、SEED-Bench等,用于评估MLLMs在不同细分场景的能力。

然而,大多数MLLMs工作仅关注模型在单张图像输入时的性能,相应的评估基准也局限在单图场景。少数面向多图的评估数据集,如Sparkles-Eval、Mantis-Eval等,所包含的评估维度和样本数量十分有限。

基于此,阿里通义实验室mPLUG团队提出一个新的大规模基准测试集MIBench,包含13K条高质量测试样本,以全面、细致地评估现有MLLMs在多图场景的能力。

MIBench与现有MLLM评估基准对比

数据集设计

MIBench多图场景及子任务概览

如图所示,MIBench涵盖多图指令、多模态外部知识及多模态上下文学习等3个典型多图场景的13个细分子任务:


数据集构建

数据集的构建包括图片来源、选项生成、知识采样、质量控制等方面。

数据集子任务示例

模型评估与分析

数据集设计和构建完成后,作者首先在多图指令和多模态外部知识场景,评估了多个开源的单图及多图MLLMs,以及GPT-4o等闭源模型的性能。通过对不同子任务测试结果的分析,可以看到:

作者进一步分析了开源MLLMs在多模态外部知识场景的性能瓶颈,可以看到:

此外,在多模态上下文学习场景,作者着重评估了OpenFlamingo、Idefics、MMICL等具备ICL能力的模型,从上图显示的实验结果可以看到:

最新 AI 进展报道
请联系:amos@52cv.net

END




欢迎加入「大模型交流群?备注:LLM




跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MIBench 多模态大模型 评估基准 性能分析
相关文章