ACL 2025 | 多维阅卷，智识觉醒：打开多模态大模型看图写作评估的认知之门

原创让你更懂AI的 2025-06-11 12:32 北京

看图写作评分谁更强？

研究背景：线上文章评分与MLLM的新机遇

自动作文评分（AES）是教育评估中的重要技术工具，能实现对大规模写作的高效、稳定评分。然而，传统 AES 实现存在三大缺陷：

依赖手工特征，通用性差

难以评估细粒度写作特质

无法处理图文处境

随着 GPT-4o、Gemini 等大型多模态语言模型（MLLMs）的应用推广，AES 实现得以突破，直接依靠文本+图片输入进行特质评分。

然而，MLLM 是否真正能够精确地采集细粒度写作经验，由于缺乏多模态输入（图片+文本）以及细粒度评分的高质量数据集，其准确度仍有很大疑问。

我们做了什么：EssayJudge出击

2.1 数据集构建

初始作文数据来自国内知名教育机构，题目设计合理、内容表达真实。

之后我们对原始数据进行了严格筛选，剔除低质量或评分缺失样本，保留具备图文联动特征的作文。

随后，由 5 位资深英语教师组成的团队对每篇作文在十个维度上进行多轮精细化评分：首轮由两位教师独立打分，若任一维度差异超过 1 分，则由第三方小组讨论裁定。最终建立了高一致性、高信度、公平性与细粒度（multi-granular）兼具的评分体系。

2.2 数据集特点

EssayJudge 是首个专为多模态大语言模型（MLLM）设计的细粒度图文作文评分 benchmark，覆盖十个评分维度，具有以下三大核心特性：

全线细粒度特质评分：构建涵盖词汇准确性（LA）、词汇多样性（LD）、语法准确性（GA）、语法多样性（GD）、标点准确性（PA）、句间连贯性（CH）、文章结构（OS）、论点清晰度（AC）、论证说服力（JP）以及文章长度（EL）等十项特质的细粒度评分框架，覆盖从词汇、句子到篇章三个层级，全面衡量写作质量。

大规模、高质量图文数据：收录 1,054 篇真实图文作文，涵盖 125 个多样主题，配套七类图表形式，包括流程图、柱状图、线图、表格、饼图、地图与组合图表，全面考验模型的图文信息整合与语义理解能力。

深度图文融合设定：作文内容高度依赖图像信息作为论据来源，促使模型在评分过程中充分理解图文关系，实现对上下文、推理链条的深层建模。

基准设计与评分系统

1. 10 项细粒度评分维度：

词汇层面：Lexical Accuracy (LA), Lexical Diversity (LD)

句子层面：Grammatical Accuracy (GA), Grammatical Diversity (GD), Punctuation Accuracy (PA), Coherence (CH)

文章层面：Organizational Structure (OS), Argument Clarity (AC), Justifying Persuasiveness (JP), Essay Length (EL)

2. 共进行了 18 个多模态大语言模型的综合对比，分为两类：

Open-Source MLLMs：我们评估了多个当前主流的开源多模态大模型，包括 Yi-VL、Qwen2-VL、DeepSeek-VL、LLaVA-NEXT、InternVL2、InternVL2.5、MiniCPM-V2.6、MiniCPM-LLaMA3-V2.5、Ovis1.6-Gemma2 以及 LLaMA-3.2-Vision。

上述模型均具备图文输入能力，广泛用于学术与产业中的多模态理解任务，代表开源社区在图文评分能力上的前沿水平。

Closed-Source MLLMs：同时，我们引入了多种闭源 SOTA 多模态模型作为性能上限的对比参考，包括 Qwen-Max、Step-1V、Gemini-1.5-Pro、Gemini-1.5-Flash、Claude-3.5-Haiku、Claude-3.5-Sonnet、GPT-4o-mini 以及 GPT-4o。

这些模型具备较强的图文推理与生成能力，是闭源系统中的代表性旗舰模型。