PaperWeekly 前天 17:17
ACL 2025 | 多维阅卷,智识觉醒:打开多模态大模型看图写作评估的认知之门
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了EssayJudge,一个专为多模态大语言模型(MLLM)设计的细粒度图文作文评分基准。该基准包含10个评分维度,涵盖词汇、句子和篇章层面,并收录了1054篇真实图文作文,覆盖多种主题和图表形式。研究对比了多个开源和闭源MLLM在作文评分上的表现,发现闭源模型在整体表现上更优,尤其是在GPT-4o上表现突出。研究还探讨了不同图表类型和图片数量对评分的影响,并分析了MLLM在细粒度特质评估中的优劣势。

🧐 EssayJudge是首个针对多模态大语言模型(MLLM)设计的细粒度图文作文评分基准,它能够全面评估模型在作文评分上的表现。

📊 该基准涵盖了10个评分维度,包括词汇、语法、标点、连贯性、结构、论点清晰度、论证说服力以及文章长度等,能够进行全方位的写作质量评估。

📚 EssayJudge包含了1054篇真实图文作文,覆盖125个多样主题,并配备七类图表形式,为模型提供了丰富的图文信息融合和语义理解的训练数据。

🥇 研究对比了多个开源和闭源MLLM,结果显示闭源模型在整体表现上更优,尤其是GPT-4o在多个维度上表现突出,展现了其在图文理解和评分方面的强大能力。

💡 实验表明,多模态模型在处理图表信息时表现出优势,例如在评估线图类作文时,模型在连贯性维度上表现更好;同时,多图场景有助于提升模型对论证说服力的评估。

原创 让你更懂AI的 2025-06-11 12:32 北京

看图写作评分谁更强?


研究背景:线上文章评分与MLLM的新机遇

自动作文评分(AES)是教育评估中的重要技术工具,能实现对大规模写作的高效、稳定评分。然而,传统 AES 实现存在三大缺陷:


随着 GPT-4o、Gemini 等大型多模态语言模型(MLLMs)的应用推广,AES 实现得以突破,直接依靠文本+图片输入进行特质评分。

然而,MLLM 是否真正能够精确地采集细粒度写作经验,由于缺乏多模态输入(图片+文本)以及细粒度评分的高质量数据集,其准确度仍有很大疑问。



我们做了什么:EssayJudge出击

2.1 数据集构建

初始作文数据来自国内知名教育机构,题目设计合理、内容表达真实。


之后我们对原始数据进行了严格筛选,剔除低质量或评分缺失样本,保留具备图文联动特征的作文。


随后,由 5 位资深英语教师组成的团队对每篇作文在十个维度上进行多轮精细化评分:首轮由两位教师独立打分,若任一维度差异超过 1 分,则由第三方小组讨论裁定。最终建立了高一致性、高信度、公平性与细粒度(multi-granular)兼具的评分体系。

2.2 数据集特点

EssayJudge 是首个专为多模态大语言模型(MLLM)设计的细粒度图文作文评分 benchmark,覆盖十个评分维度,具有以下三大核心特性:




基准设计与评分系统

1. 10 项细粒度评分维度


2. 共进行了 18 个多模态大语言模型的综合对比,分为两类


Open-Source MLLMs:我们评估了多个当前主流的开源多模态大模型,包括 Yi-VL、Qwen2-VL、DeepSeek-VL、LLaVA-NEXT、InternVL2、InternVL2.5、MiniCPM-V2.6、MiniCPM-LLaMA3-V2.5、Ovis1.6-Gemma2 以及 LLaMA-3.2-Vision。


上述模型均具备图文输入能力,广泛用于学术与产业中的多模态理解任务,代表开源社区在图文评分能力上的前沿水平。


Closed-Source MLLMs:同时,我们引入了多种闭源 SOTA 多模态模型作为性能上限的对比参考,包括 Qwen-Max、Step-1V、Gemini-1.5-Pro、Gemini-1.5-Flash、Claude-3.5-Haiku、Claude-3.5-Sonnet、GPT-4o-mini 以及 GPT-4o。


这些模型具备较强的图文推理与生成能力,是闭源系统中的代表性旗舰模型。



MLLM 全面评估结果

4.1 主要结论

Closed-Source 模型重现总优势如上图大表我们可以发现,闭源模型普遍比开源模型表现好,其中 GPT-4o 突出地在 9 项特质中功能最强;Open-Source 表现有限:InternVL2 总优势最好,但完全落后 GPT-4o。


闭源多模态模型在评分行为上展现出更强的区分能力和更严格的评分倾向参考下图的琴图,相比开源模型倾向于将作文得分集中在中间段(3-4 分),闭源模型的得分方差显著更高(0.49 vs. 0.34),能够更好地区分不同质量层次的作文。


同时观察下图中的柱状图可以发现:它们在诸如论点清晰度、连贯性和语言特征等关键维度上普遍给出更低的分数,体现出对评分标准的高度遵循和更保守的打分策略。人工评分则通常位于两者之间。

多模态模型能够有效运用多模态输入中的图片信息:消融实验表明,去除图像信息会导致 GPT-4o 在所有十个评分维度上的评分准确性下降,凸显了图像在补充论据、丰富语义层面的关键作用。

4.2 与特质有关的实验结论

闭源模型在宏观结构维度上存在明显短板:尽管闭源模型在词汇层面的评分(如词汇准确度)上表现出色,但在论点清晰度与文章长度两个涉及宏观逻辑与篇章长度判断的维度上得分偏低,反映出其在结构性与整体性评估方面仍有不足。

多模态模型在图表类型与评分维度之间存在互动优势:当评分对象为线图类(如折线图)作文时,多模态模型(如 GPT-4o、InternVL2)在连贯性维度上表现尤为突出,说明模型能够有效捕捉图像中连续性趋势信息,并将其映射至文本结构理解中。

4.3 图片输入数量有关的实验结论

闭源模型更擅长处理单图场景下的作文评分:在单图(single-image)设定中,大多数闭源多模态模型的评分表现更稳定、更准确,说明它们在处理集中图文关系时具备更强的融合能力。

多图设定有助于增强模型对论证说服力的评估:在评估 Justifying Persuasiveness(论证说服力) 维度时,大多数模型在多图(multi-image)场景中表现更佳,表明多图信息有助于模型构建更完整的论证链条,从而提升其说服力评判能力。


结论与展望

EssayJudge 构建了首个面向 MLLM 的细粒度 AES 基准,但目前 MLLM 远未达到人类评分的效果。


当前围绕 EssayJudge 的研究已全面开始,数据集和代码已公开,快来试一下吧:


Github链接:

https://github.com/jsu360/EssayJudge

项目主页:

https://jsu360.github.io/EssayJudge_html/

论文链接:

https://arxiv.org/abs/2502.11916


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态大模型 作文评分 EssayJudge 人工智能 MLLM
相关文章