2025-07-08 13:15 江苏
关注公众号,发现CV技术之美
“请生成2018年泰坦尼克号的真实状态。”
这句看似简单的指令,实则隐含复杂语义。不仅要求模型生成符合“泰坦尼克号”外观的图像,还涉及了对历史事实的把握。2018 年的“泰坦尼克号”,应是沉没于北大西洋海底的残骸,而不是一艘仍在航行的轮船。
多数生成模型未能抓住这一关键点,纷纷翻车;唯有 GPT-4o-Native 和 Gemini-2.0 准确把握了任务要求,生成出符合历史事实与语境的图像。它们能做到这一点,是因为这类先进的多模态模型已能深入理解语义和推理用户意图,生成与指令高度一致的视觉内容,展现出强大的通用生成潜力。
然而,与模型能力的飞跃相比,目前的评测体系仍显滞后。大量测试仍停留在“描述-生成”的浅层阶段,缺乏挑战性,难以有效衡量模型处理复杂指令时的真实能力。要真正评估这些模型的智能边界,亟需设计出更具挑战性与认知深度的图像生成评估基准。
为此,来自复旦大学、华东师范大学的研究团队提出了 OmniGenBench —— 一个专为评估生成模型指令跟随能力而设计,富有挑战性的图像生成基准。该基准聚焦于模型在感知与认知两个维度下的生成能力,涵盖 57 个基于真实场景构建的任务,覆盖情景推理、世界知识、空间理解、信息可视化等多个方向。
基于 OmniGenBench 的测试显示,GPT-4o-Native 在感知与认知任务中均表现出色,全面领先,展现了当前最强的通用图像生成能力。Gemini-2.0 紧随其后,尤其在认知类任务中表现突出。相比之下,其他闭源模型整体实力略显不足,而开源模型在多个维度上明显落后于闭源模型。
arXiv: https://arxiv.org/abs/2505.18775
GitHub: https://github.com/emilia113/OmniGenBench
Huggingface: https://huggingface.co/datasets/emiliiia/OmniGenBench
感知与认知主导的六维能力评估框架
基准采用了一套系统且全面的方法,用于评估多模态生成模型指令跟随的能力。任务设计基于 57 个精心构建的子任务,涵盖真实生成场景中的多样化需求,归纳为六大核心能力维度。这六类能力可进一步分为两大方向:一类是聚焦低层次视觉保真度的感知类任务(如目标驱动生成),另一类侧重高层次推理能力的认知类任务(如 STEM 推理)。二者共同构成一个从“浅层一致生成”到“深层推理生成”的综合评估体系,用于全面衡量模型的通用生成能力。
感知导向生成任务
该类任务的图像内容由文本直接指明,无需额外推理或世界知识的介入,主要包括两种子类型:
外观一致性生成:要求模型根据描述生成图像,描述通常包含对象级属性,如数量、空间关系与属性绑定,测试其细节还原与组合能力。
动态一致性生成:评估模型在动态变化的上下文中保持视觉连贯性的能力。
认知导向生成任务需要模型结合指令中所蕴含的上下文信息或世界知识,进行合理推理并生成目标图像,涵盖以下四类任务:
世界知识驱动生成:评估模型对专业概念或全球范围内文化知识的理解与可视化能力。
情景推理生成:给定情境进行推测并生成符合情景上下文要求的图像,如“烟头丢入森林”的后果。
空间推理生成:评估模型对二维与三维空间关系的理解与生成能力。
STEM 推理生成:结合科学、技术、工程与数学等领域知识进行推理,并以图像形式呈现中间过程或推理结果。
为构建高质量图像生成基准,研究团队基于任务多样性强、挑战性高的 MegaBench,采用逆向构造的方式设计图像生成指令。具体构建流程如下:
团队首先将任务手动划分为“可逆任务”和“不可逆任务”。对于每个可逆任务,标注员根据改写后的 VQA 问题及其对应答案,构造出图像生成指令。在此基础上,这些人工指令被作为 few-shot 示例,用于提示 GPT-4o 自动生成更多多样化的生成请求。为保障最终任务的质量与挑战性,三位标注员对生成指令进行独立评审,仅保留三人一致判定为“质量合格”的示例,纳入基准数据集中。
OmniGenBench针对不同类型的任务采用差异化评估策略。针对感知导向任务,直接沿用已有评估方案;对于认知导向任务,则采用Gemini-2.5 Pro多模态大模型作为评委,并为每个任务指令精心设计了定制化评估提示,确保模型能够准确把握任务指令的关键进行判断。
生成模型差距在哪?
从整体评估结果来看,当前多模态生成模型在六大任务维度上呈现出明显的能力分层:
能力全面领先:GPT-4o-Native 在感知与认知任务中均展现出最强性能,稳居六类任务榜首,体现出极高的图像细节还原与语义理解能力。Gemini-2.0 紧随其后,尤其在认知类任务如空间推理和情景推理中表现突出。
推理能力不足:如 Seedream3 等部分闭源模型虽在感知维度表现尚可,但在需复杂推理的任务上表现不佳。
开源生态落后:开源模型在感知与认知任务中均大幅落后。
与此同时,细观各类模型在具体任务下的表现,也进一步揭示了它们在关键能力维度上的差异:
GPT-4o 空间与情境推理能力全面领先:在空间理解与情景推理任务中(图中第 4~6 行),能够准确理解多模态上下文,生成与图文条件高度一致的图像,展现出出色的理解驱动生成能力。
GPT-4o 结构化表达与文字可视化效果出色:在文本可视化的任务中(图中第 1、3 行),生成内容在文字清晰度和逻辑结构的呈现上表现优异,能够准确可视化抽象信息。
Gemini 在复杂推理任务略逊一筹:在部分推理任务中能做出合理判断,但生成内容在语境一致性与细节表达上仍存在偏差(图中第 4~6 行)。
其他闭源模型在高阶语义理解上表现薄弱:如 FLUX1.1 等,在高阶任务中生成内容常出现理解偏差,难以胜任推理类任务(图中第 4~6 行)。
专业知识相关任务仍是所有模型的痛点:在专业知识相关的生成任务中(图中第 7~8行),当前主流模型在涉及专业知识的图像生成任务中普遍失败,尚无法胜任相关挑战。
总体而言,当前多模态生成模型在感知与认知任务中呈现明显分层:GPT-4o 全面领先,Gemini-2.0 表现稳健,其他模型在高阶推理任务上仍显不足。开源模型处于追赶阶段。多模态推理与专业知识理解仍是生成模型能力的短板,也将是未来持续优化的重要方向。
了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net
END
欢迎加入「图像生成」交流群👇备注: