字节跳动技术团队 02月11日
CVPR 2025 NTIRE赛事 | AI 生成图像质量评估挑战赛:双赛道 + 大奖 + EvalMuse 数据库,等你来战!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

抖音多媒体质量实验室联合南开大学在CVPR NTIRE Workshop上举办AI生成图像质量评估学术竞赛,旨在推动生成图像/视频领域的发展。本次竞赛基于业界规模最大的文生图评估数据库EvalMuse,包含图文匹配度和结构问题挖掘两个子赛道。EvalMuse通过大规模数据集和细致的人工标注,全面评估文生图模型在图像-文本对齐方面的表现。竞赛提供奖金和论文发表机会,吸引了全社会的研究者参与,共同探索文生图技术的评估标准。

🏆本次CVPR NTIRE Workshop竞赛由抖音多媒体质量实验室与南开大学联合举办,聚焦图像复原、图像增强、生成技术和质量评估,旨在建立生成图像/视频领域的质量评估“黄金标准”。

🖼️竞赛基于EvalMuse数据库,该数据库包含40,000个图像-文本对和超过100万细粒度人类标注,通过精心设计的数据集和标注体系,力求最大程度地反映T2I模型在实际应用中的表现。

🔍竞赛开设两个子赛道:一是生成图像质量评估-细粒度图文匹配度打分,二是生成图像质量评估-结构问题挖掘,分别评估模型的图文匹配度和结构完整性。

💰大赛提供总额约10万元人民币的奖金,赛道排名前三的队伍将获得CVPR NTIRE的获奖证书及奖金。同时,竞赛还提供论文发表机会,邀请排名靠前的参赛者向NTIRE研讨会提供论文。

抖音评测实验室 2025-02-07 14:48 重庆

CVPR NTIRE(New Trends in Image Restoration and Enhancement)Workshop 是计算机视觉顶会CVPR下极具影响力的国际学术研讨会,聚焦图像复原、图像增强、生成技术、质量评估的突破性进展。为了推进生成图像/视频领域的发展,建立生成图像/视频领域的质量评估“黄金标准”,抖音多媒体质量实验室/豆包大模型团队(字节跳动)联合南开大学在第十届CVPR NTIRE workshop上举办AI生成图像质量评估学术竞赛。

比赛介绍

近年来,文生图(T2I)模型技术迅速发展,催生了Dreamina、DALL·E3和Midjourney等热门工具。它们能够精准理解用户的prompt(提示词),将简短描述转化为高质量且富有美感和一致性的图像。这一技术显著降低了创作门槛,提升了效率和趣味性,让艺术创作、广告设计及日常分享变得更加简单直观。文生图技术的普及,为数字内容创作开辟了全新可能性。

然而,如何评估文生图模型的性能,特别是在图文匹配度/美学/结构完整性方面,一直是一个巨大的挑战。传统评估方法已无法全面衡量图像与文本的匹配度,多模态大模型对结构问题的挖掘能力也存在很大不足。为解决这一问题,抖音多媒体质量实验室与豆包大模型团队及南开大学合作,推出了业界规模最大的文生图评估数据库—EvalMuse,并提出了SOTA的文生图评价解决方案,具体内容可以参考论文EvalMuse。

论文?:https://arxiv.org/abs/2412.18150

基于EvalMuse提供的大规模数据集,本次竞赛开设两个子赛道,分别为文生图的图文匹配度结构问题挖掘的自动化评估能力。

赛事具体介绍

Track 1-生成图像质量评估-细粒度图文匹配度打分

比赛网址:https://codalab.lisn.upsaclay.fr/competitions/21220

数据介绍

模型输出要求&baseline

要求模型输出prompt维度的图文匹配度分数,以及element维度是否命中的标签。

例:

给定Prompt :musician plays guitar aerial shot , 给定element : musician,plays,guitar,aerial shot

模型需要输出

    整体图文匹配度打分(可归一化到1-5)

    element维度是否命中,0代表未命中,及图像中不存在element对应的元素,1代表命中,及图像中存在element对应的元素。以上图为例,musician,plays,guitar均命中,应输出1,aerial shot未命中,应输出0.

Baseline可参考Fga-blip2仓库:https://github.com/DYEvaLab/EvalMuse

评估指标

本赛道通过prompt维度图文匹配度打分srcc/plcc以及element维度的acc来确定最终得分。具体计算方式可见比赛codalab网站,Evaluation部分。

Final_Score = PLCC / 4 + SRCC / 4 + acc / 2


Track 2-生成图像质量评估-结构问题挖掘

数据介绍

    bbox_type:bbox标注类型,值为1表示该标注为矩形bbox,值为2表示该标注为多边形bbox

    bbox:列表格式,元素为bbox顶点坐标

      bbox_type=1 ,记录矩形的左上角、右下角坐标

      bbox_type=2, 以顺时针顺序记录多边形顶点坐标

模型输出要求&baseline

将结果保存为dict,以pkl格式存储,img_name与测试集图片命名保持一致,对应一张图片的预测结果。

baseline可参考 :https://github.com/DYEvaLab/EvalMuse-Structure



评估指标


大赛奖励



大赛要求


大赛官网

图文匹配度赛道网址:

https://codalab.lisn.upsaclay.fr/competitions/21220

结构问题挖掘赛道网址:

https://codalab.lisn.upsaclay.fr/competitions/21269

EvalMuse项目主页:

https://shh-han.github.io/EvalMuse-project/

EvalMuse 开源项目地址:

https://github.com/DYEvaLab/EvalMuse


交流群

如链接过期,可联系

hansh@mail.nankai.edu.cn

fanhaotian@bytedance.com


主办方

CVPR NTIRE 2025 文生图质量评估挑战赛由抖音多媒体质量实验室与南开大学共同举办。主办方联系方式:


附:EvalMuse数据库介绍


具体介绍参考https://mp.weixin.qq.com/s/RWxspVh0SbisNKEb75jrOw

EvalMuse-40K是一个包含40,000对图像-文本对和超过100万细粒度人类标注的Benchmark,旨在全面评估T2I模型在图像-文本对齐方面的表现。该Benchmark的构建过程既复杂又细致,我们通过精心设计的数据集和标注体系,力求最大程度地反映T2I模型在实际应用中的表现。

EvalMuse-40K 的构建过程复杂而细致。我们首先从 DiffusionDB 中收集了2,000个真实用户的提示,这些提示反映了用户的多样化需求。同时,我们生成了2,000个合成提示,涵盖了物体数量、颜色、材质、环境设置、活动属性等多个方面,以全面评估T2I模型在不同任务中的表现。

接下来,我们使用20种不同的扩散模型生成了40,000张图像,确保了图像的多样性和质量。在数据标注阶段,我们对这些图像-文本对进行了细致的人工标注,涵盖图像-文本对齐评分、元素级别的匹配检查和结构问题标记。标注过程分为预标注、正式标注和重新标注三个阶段,以确保数据的可靠性和准确性。

与现有的文本到图像(T2I)模型的Benchmark相比,EvalMuse-40K 提供了一个更大规模、更细粒度的评估数据库。超过100万细粒度人类标注,使得 EvalMuse-40K 在数据集规模和多样性上远超许多现有Benchmark。与业界一些相关Benchmark的比较见下表:

除此之外,EvalMuse还提供了两种SOTA的图文匹配度评估算法,旨在提升图文匹配度评估的准确性,确保与人类评估结果的一致性。

关注我们,了解更多精彩

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

CVPR NTIRE 文生图 EvalMuse 图像质量评估 人工智能
相关文章