量子位 05月30日 16:56
GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

一项名为RISEBench的全新图像编辑评测基准发布,旨在评估AI在理解复杂指令方面的能力。研究表明,即使是当前最强的GPT-4o-Image,在复杂视觉编辑任务中的准确率也仅为28.9%,开源模型表现更差。RISEBench包含360个高质量测试案例,涵盖时间、因果、空间、逻辑四种推理类型,揭示了当前视觉编辑模型在深层理解方面的不足,推动未来视觉编辑模型的发展。

💡 **RISEBench的推出**:RISEBench是一个全新的图像编辑评测基准,用于评估视觉编辑模型在理解复杂指令方面的性能,而非仅仅停留在表面修改。

⏳ **四大核心推理类型**:RISEBench包含时间、因果、空间和逻辑四种核心推理类型,涵盖360道高难度测试题,以全面考验模型的推理能力。

🧐 **多维度评估体系**:RISEBench采用多模态大模型作为评判专家,从指令理解、外观一致性和视觉合理性三个维度进行细粒度评估,确保评估的客观性和一致性。

📉 **模型表现差距**:测试结果显示,即使是目前最强的GPT-4o-Image,在RISEBench上的任务完成率也仅为28.9%,开源模型表现更差,表明当前模型在复杂指令理解方面仍有很大提升空间。

关注前沿科技 2025-05-30 13:01 北京

开源模型最强仅能完成5.8%的任务

RISEBench团队 投稿量子位 | 公众号 QbitAI

GPT-4o-Image也只能完成28.9%的任务,图像编辑评测新基准来了!

360个全部由人类专家仔细思考并校对的高质量测试案例,暴露多模态模型在结合推理能力进行图像编辑时的短板。

最近,上海人工智能实验室联手上海交大、同济大学、武汉大学、普林斯顿大学的研究人员,针对图像编辑AI提出了三个问题:

为了填补这一空白,深度挖掘并客观评估视觉编辑模型在理解复杂指令方面的能力上限,团队推出了一项全新任务——Reasoning-Informed ViSual Editing (RISE)

另外,他们还配套发布了一个高质量评测基准——RISEBench,覆盖时间、因果、空间、逻辑四种核心推理类型,每个案例包含原图和编辑指令。

例如输入一张图像,展示了一片草地上有片枯叶,上方有个放大镜,任务指令为“画出该场景在夏天30秒后的模样”。

团队测试了当前性能领先的九个视觉编辑模型,实验测试结果令人意外:

即使是最强的GPT-4o-Image,在复杂视觉编辑任务中的准确率也仅为28.9%,最强的开源模型BAGEL仅能完成5.8%的任务,其它被测开源模型完成率几乎为零,显示出当前开源模型与闭源模型在视觉理解能力上的差距。

以下是更多细节。

RISEBench长啥样?

与传统评测基准不同,RISEBench旨在评估视觉编辑模型在各类需要深层理解的指令上的性能。它不仅仅停留在表面修改,更深入地探索视觉编辑模型对时间、因果、空间和逻辑等复杂概念的把握。

RISEBench精心设计了360道高难度问题,全部由人类专家仔细思考并校对,确保了问题的严谨性和挑战性。这些题目被划分为四大核心类别,旨在全面考验模型的推理能力:

为了确保评估的全面性和泛化性,RISEBench的输入图像来源广泛,包括互联网数据、已有基准、模型生成图像以及代码生成图像等多个不同分布的数据源。

这种多源异构的设计,能够广泛细致地考验模型对不同输入图像和指令的应对能力,避免模型在特定数据分布上过拟合。

自动化的细粒度评估体系

为了精准、高效地评判模型输出是否符合要求,作者团队将整体评估拆分成了三个关键子维度,并采用前沿的多模态大模型作为评判专家(LMM-as-Judge)的方式,使用GPT-4.1作为评估模型对每个维度进行打分,确保评估的客观性和一致性。

1、Instruction Reasoning(指令理解): 考核模型是否准确理解了指令的深层含义。

2、Appearance Consistency(外观一致性): 评估生成图像与原图在背景以及风格、纹理等与指令无关的视觉元素上的一致性,确保编辑自然。

3、Visual Plausibility(视觉合理性): 衡量生成图像的整体视觉质量、真实感和视觉合理性,避免出现不自然或失真的效果。

每个维度均为1-5分,当三个维度均为满分时标记为完成了编辑任务。这种细粒度的评估设计显著提升了模型打分与人类判断的对齐程度,为未来视觉编辑模型的发展提供了更加可靠和公正的评估体系。

视觉编辑模型理解能力远未及格

作者团队对近期备受关注的多个闭源及开源模型进行了严格评估,包括GPT-4o-Image、Gemini-Flash-2.0-Series (Experimental & Preview)、HiDream-Edit以及开源模型BAGEL、Step1X-Edit、OmniGen、EMU2、Flux.1。

结果令人深思:

为了更深入地分析各模型的表现,研究团队还统计了每个模型在指令理解(Instruction Reasoning)、外观一致性(Appearance Consistency)和视觉合理性(Visual Plausibility)这三个评估维度上的平均得分,揭示了其短板所在。

结果表明:

团队认为,这些细致的评估结果清晰地揭示了当前视觉编辑模型所面临的严峻挑战:

不仅仅是简单的技术实现,更深层次的认知和推理能力才是决定未来模型性能的关键瓶颈。

最后,作者团队展望未来并表示:

RISEBench的发布,标志着图像编辑评测标准的一次重大升级。希望它能推动下一代视觉编辑模型发展,引领编辑模型从“模仿”走向“理解”,最终实现真正智能、富有创造力的视觉交互。

论文链接:https://arxiv.org/pdf/2504.02826GitHub链接:https://github.com/PhoenixZ810/RISEBench

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RISEBench 图像编辑 人工智能 GPT-4o-Image
相关文章