量子位 前天 17:07
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

KRIS-Bench是一个由东南大学等机构联合提出的图像编辑系统评测基准,旨在评估AI在图像编辑方面的推理能力。该基准借鉴认知分层理念,从事实性知识、概念性知识和程序性知识三个层面,对模型进行系统化、精细化的评测。KRIS-Bench包含7大推理维度、22种编辑任务,覆盖从初级到高级的难度。通过多模态大模型与人工校准,从视觉一致性、视觉质量、指令跟随和知识合理性四个维度对编辑输出进行打分。测试结果显示,闭源模型GPT-Image-1表现领先,开源模型仍有提升空间,尤其在深层推理能力方面有待加强。

💡 KRIS-Bench基于布鲁姆认知分类,将知识分为事实性知识、概念性知识和程序性知识三大类,以此构建评测框架。

🔬 KRIS-Bench包含7大推理维度、22种典型编辑任务,涵盖从物体计数变化到化学反应预测、多元素合成等,全面评估模型能力。

📊 评估采用四维度自动化评估指标,包括视觉一致性、视觉质量、指令跟随和知识合理性,确保评估的全面性和准确性。

🥇 闭源模型GPT-Image-1表现突出,开源模型BAGEL-Think通过引入推理过程有所提升,但整体仍落后于闭源模型。

🚀 KRIS-Bench旨在推动图像编辑模型从“像素搬运”向具备人类认知能力的“视觉智者”转变,实现更深层次的理解和推理。

关注前沿科技 2025-06-13 13:07 北京

闭源GPT-Image-1领先

KRIS-Bench团队 投稿量子位 | 公众号 QbitAI

人类在学习新知识时,总是遵循从“记忆事实”到“理解概念”再到“掌握技能”的认知路径。

AI是否也建立了“先记住单词,再理解原理,最后练习应用”的这种知识结构呢?

测评一下就知道了!

东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队,共同提出了KRIS-Bench(Knowledge-based Reasoning in Image-editing Systems Benchmark)。

首创地从知识类型的视角,对图像编辑模型的推理能力进行系统化、精细化的评测。

借鉴布鲁姆认知分类与教育心理学中的分层教学理念,KRIS-Bench让AI在事实性知识(Factual Knowledge)、概念性知识(Conceptual Knowledge)与程序性知识(Procedural Knowledge)三大层面上,逐步接受更深入、更复杂的编辑挑战。

基于认知分层的三大知识范畴

KRIS-Bench在每个类别下又细化出7大推理维度、22种典型编辑任务,从“物体计数变化”到“化学反应预测”“多元素合成”等,覆盖了从初级到高级的全谱系难度。

四维度自动化评估指标

借助多模态大模型与人工校准,KRIS-Bench首创从四个维度对编辑输出打分:

    视觉一致性(Visual Consistency):非目标区域是否保持原貌;

    视觉质量(Visual Quality):生成图像的自然度与无失真度;

    指令跟随(Instruction Following):指令要点执行的完整性与准确性;

    知识合理性(Knowledge Plausibility):结果是否符合真实世界的常识与规律。

深度知识任务还附带手工知识提示,以帮助评判模型是否真正“理解”了背后的原理。

10款模型全面测试

KRIS-Bench评估了3款闭源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款开源(OmniGen、Emu2、BAGEL、Step1X-Edit、AnyEdit、MagicBrush、InstructPix2Pix)模型。

借助KRIS-Bench,团队正推动图像编辑模型脱离单纯的“像素搬运”,向具备人类般认知能力的“视觉智者”迈进。

未来,团队期待编辑不再是“换换颜色”“挪挪位置”这么简单,而是在内部植入物理、化学、社会常识与因果推理,真正让 AI 明白“为什么会这样”和“接下来会怎样”。

感兴趣的朋友可以戳下方链接获取更多细节

项目地址:https://yongliang-wu.github.io/kris_bench_project_page/论文地址:https://arxiv.org/abs/2505.16707代码地址:https://github.com/mercurystraw/Kris_Bench

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

KRIS-Bench 图像编辑 AI评测 GPT-Image-1
相关文章