CVPR 2025 Highlight | 基于多模态大模型的细粒度视频质量评估方法

哔哩哔哩技术 18小时前

Bilibili公司携手上海交通大学发布了全球首个大规模细粒度视频质量评估数据库FineVD，并创新性地提出了FineVQ模型。该数据库包含超过6,104条UGC视频，提供了80万+多维度细粒度质量评分与描述。FineVQ模型能对UGC视频进行多维度细粒度质量评估，包括色彩、噪声、伪影、模糊、时序等六个维度，并支持质量评级、分数预测和问题归因三大功能。该成果在CVPR 2025会议上被正式接收，并入选Highlight，展现了其在UGC视频质量评估领域的领先地位。

🎬 **FineVD数据库构建：** 收集了来自Bilibili平台的6,104条UGC视频，覆盖7大垂类点播视频和6种场景直播视频，涵盖知识、音乐、动画、时尚、游戏等，以及手机游戏、野外、虚拟主播等场景，旨在全面反映UGC视频的多样性和实际应用情况。

🔍 **多维度质量评估：** FineVD数据库包含80万+人类偏好标注与专家级失真类型标注，涵盖色彩、噪声、伪影、模糊、时序等六个维度的失真程度评分，以及压缩、拍摄、处理、传输等12种典型失真类型，为视频质量评估提供了细致的数据支撑。

💡 **FineVQ模型：** 该模型是一个通用的视频质量评估方法，通过视觉特征提取、视觉特征对齐融合和指令微调大语言模型三个步骤，实现对UGC视频多维度的质量级别、质量分数和质量描述的统一输出。

🥇 **卓越性能表现：** FineVQ模型在FineVD及多个主流UGC-VQA数据集上均表现出最佳性能，在质量分数预测和失真类型预测任务中均优于现有方法，并且跨数据集评估也展现出良好的泛化能力。

原创多媒体 2025-05-16 12:01 上海

bilibili公司联合上海交通大学发布全球首个大规模细粒度视频质量评估数据库FineVD，并创新提出FineVQ模型，为UGC视频提供多维度细粒度质量评估。

近年来，由于视频处理技术的发展和社交平台的流行，用户生成内容（UGC）视频数量呈爆炸式增长。由于UGC视频涵盖了多种视频拍摄和处理条件，因此通常会遭受各种退化，如噪声、模糊、抖动等，这使得UGC视频质量差异很大。理解和预测UGC视频的质量长期以来一直是一个重要但尚未解决的问题，这可以应用于拍摄设备和社交媒体网站以监控或者引导优化视频质量。然而，现有视频质量评估（VQA）模型仅能给出整体评分，难以满足视频处理与推荐场景的细粒度需求。

为此，bilibili公司联合上海交通大学发布全球首个大规模细粒度视频质量评估数据库FineVD，并创新提出FineVQ模型，为UGC视频提供多维度细粒度质量评估。

核心亮点

✅ 首创数据库：包含6,104条UGC视频，提供80w+的多维度细粒度质量评分与描述

✅ 大一统模型：FineVQ支持质量评级、分数预测、问题归因三大功能；可以评估包括色彩、噪声、伪影、模糊、时序等六个维度。

✅ 卓越性能：在FineVD及主流UGC-VQA数据集上最符合人类偏好

目前，该成果已被计算机视觉顶级会议 CVPR 2025 正式接收，并入选Highlight。

论文标题：FineVQ: Fine-Grained User Generated Content Video Quality Assessment

论文地址：https://arxiv.org/pdf/2412.19238

项目地址：https://duanhuiyu.github.io/FineVQ-project-page/

FineVD：

首个多维度UGC质量评价数据库

FineVD的视频收集过程遵循两个关键原则：(1)尽可能全面地覆盖广泛的UGC场景和不同的失真，以及 (2)反映实际的在线统计与流行视频平台的应用。为此，作者们从流行的UGC视频平台Bilibili 收集了一个大规模的视频数据集，通过手动筛选确保视频场景和质量属性多样性。FineVD同时包含7大垂类点播视频和6种场景直播视频，其中点播视频包含知识&技术&新闻、音乐&舞蹈、日常生活、动画、时尚&娱乐、动物、体育等，而直播视频内容包括手机游戏、娱乐、单人游戏、网络游戏、野外、虚拟主播等场景，体现了已建立数据的内容多样性。同时，如下图所示，数据库包含12种以上典型失真，例如压缩类（块效应/振铃效应），拍摄类（运动模糊/对焦），处理类（色偏/过度锐化），传输类（马赛克/卡顿）等。

^{图 1: FineVD内容及构建过程概述}

FineVD在规范化实验环境下共采集了80w+人类偏好标注与专家级失真类型标注。在第一阶段，由标注者分别对色彩、噪声、伪影、模糊、时序、整体的失真程度的分数进行标注。第二阶段由专家复核并标注具体失真类型。

FineVQ：

多维度UGC质量评价算法

为了能同时分析UGC视频多个维度的质量，作者们提出了一种通用的视频质量评估方法FineVQ，该方法可以用一个统一的框架，输出多维的质量级别、质量分数和质量描述。

^{图 2: FineVQ数据选择框架}

该算法分三步进行：

视觉特征提取：从UGC视频和用户提示中分别提取视觉特征和文本特征。其中视觉特征包括图像内容特征的提取与时序运动特征的提取；

视觉特征对齐融合：将视觉特征投影到文本空间，合并后作为大语言模型输入；

指令微调大语言模型：通过LoRA微调大语言模型，适配多种类型输出。

该方法是一个多维度统一的通用框架，仅需运行一次，即可支持任意维度的质量评价与分析。

实验效果

作者使用与人类偏好的相关系数SRCC（Spearman秩相关系数）、KRCC（Kendall秩相关系数）和PLCC（Pearson线性相关系数）作为核心评估指标。这三个指标分别从不同角度衡量算法预测结果与人类主观评分的吻合程度。

质量分数预测

作者将提出的FineVQ在六个UGC VQA数据库上与其他最先进的11种VQA方法与的性能比较，包括传统IQA、VQA模型和深度学习方法。传统的IQA模型在FineVD上表现不佳，尤其是在时间维度上。传统的VQA模型可以生成有意义的质量评分，但仍然远未令人满意。基于DNN的模型通常能够取得更好的效果，优于传统的VQA和IQA方法，FineVQ在所有维度和所有指标上始终表现出最佳性能。

^{图 3: FineVQ和其他方法的在质量分数预测的性能对比。}

失真类型预测

作者在FineVD数据库上，测试了最先进的LMM和与所提出的FineVQ在失真类型预测任务上的性能。“Yes-or-no”代表对类型的判断，“which”类型表示存在哪种失真或者对视频质量影响最大的失真。FineVQ在失真类型的预测上展示出了更专业的能力。

^{图 4: FineVQ方法训练出的模型在失真类型预测上的性能对比}

在其他UGC-VQA数据库的评估

作者进一步测试了所提出的FineVQ在其他六个VQA基准数据集上的性能，包括LIVEYT-Gaming 、KoNViD-1k、YouTube-UGC、LIVE-VQ、LSVQ test和LSVQ 1080p。FineVQ同样取得了最优性能。具体来说，与KSVQE相比，FineVQ在LSVQ1080p上的性能提高了3.8%，证明了FineVQ在高分辨率视频质量评估中的有效性。

^{图 5: FineVQ在其他UGC-VQA数据集的表现}

跨数据集评估

作者还进行了两次跨数据库评估，包括(1)在其他数据集上进行训练，在FineVD上进行测试，以及(2)在FineVD上进行训练，在其他数据集上进行测试。结果如表所示，与另外两个最先进的VQA模型相比，FineVQ模型在两个实验中都表现出更优的性能，展示了模型优越的泛化能力。此外，在FineVD上训练的模型通常在其他数据集上表现更好，但在相反的情况下却表现出较差的结果。这验证了FineVD数据集的多样性和广泛分布，表明在FineVD上进行训练应该会产生具有增强的泛化能力的模型。

^{图 6: 跨数据集评估}

哔哩哔哩多媒体实验室 （bilibili mlab）是一支技术驱动的年轻队伍，具备完善的多媒体技术能力，以极致卓越的多媒体体验为目标，通过对自研视频编码器、高效转码策略、视频图像分析与处理、画质评价等技术的持续打磨和算法创新，提出了诸多高质量的多媒体解决方案，从系统尺度提升了整个多媒体系统的性能和效率，助力哔哩哔哩成为体验最好的互联网视频社区。

-End-

作者丨bilibili & SJTU

开发者问答

大家对于视频质量评价技术还有什么想了解的么？

欢迎在留言区分享你的见解~

转发本文至朋友圈并留言，即可参与下方抽奖⬇️

小编将抽取1位幸运的小伙伴获取小电视鼠标垫键盘垫

抽奖截止时间：5月20日12:00

如果喜欢本期内容的话，欢迎点个“在看”吧！

往期精彩指路

B站S赛直播中的关键事件识别与应用

用多模态技术在多媒体系统中实现场景分类