我爱计算机视觉 04月16日 20:57
画质理解新突破!北大字节提出Q-Insight,让大模型深度思考推理!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

北大与字节跳动联合提出的Q-Insight模型,通过强化学习方法,深入理解图像质量。该模型在图像质量评分、退化感知、多图比较等方面表现出色,无需大量文本标注,即可实现对图像质量的深度理解。Q-Insight为图像画质增强、AI内容生成等领域提供了新的技术支持。

🔍 Q-Insight的核心在于将强化学习引入图像质量评估,采用“群组相对策略优化”(GRPO)算法,摆脱了对大量文本监督标注的依赖,转而挖掘大模型自身的推理潜力,从而实现对图像质量的深度理解。

💡 为了提升模型对图像退化现象的敏感度,研究团队创新性地引入了多任务GRPO优化。通过设计可验证的评分奖励、退化分类奖励和强度感知奖励,联合训练评分回归与退化感知任务,显著提高了模型在各个任务上的表现。

🏆 实验结果表明,Q-Insight在图像质量评分、退化检测和零样本推理任务中均表现出色。在图像质量评分任务上,Q-Insight在多个公开数据集上的表现均超过当前最先进的方法,尤其是在域外数据上的泛化能力突出。

🔬 在退化感知任务上,Q-Insight的表现显著优于现有的退化感知模型,尤其是在噪声(Noise)和JPEG压缩退化类型识别的准确性上。

🧠 在零样本图像比较推理任务上,Q-Insight无需额外监督微调,即可准确、细致地分析和比较图像质量,展示出强大的泛化推理能力。

52CV 2025-04-15 22:21 江苏




关注公众号,发现CV技术之美




本篇分享论文Q-Insight: Understanding Image Quality via Visual Reinforcement Learning,北大字节提出Q-Insight,让大模型深度思考推理!

    论文作者:Weiqi Li(李玮琦), Xuanyu Zhang(张轩宇), Shijie Zhao†(赵世杰), Yabin Zhang(张亚彬), Junlin Li(李军林), Li Zhang(张莉) and Jian Zhang†(张健)(†通讯作者)
    作者单位:北京大学信息工程学院、字节跳动
    ArXiv版本:https://arxiv.org/pdf/2503.22679
    仓库地址:https://github.com/lwq20020127/Q-Insight

任务背景:画质理解需求的新挑战与机遇

近年来,随着智能手机摄影、视频流媒体和AI生成内容(AIGC)的快速发展,人们对图像画质的要求持续攀升,图像质量评估(Image Quality Assessment, IQA)任务的重要性日益凸显。以往的IQA方法主要分为两类:

    评分型方法,这类方法通常只能提供单一的数值评分,缺乏明确的解释性,难以深入理解图像质量背后的原因;
    描述型方法,这类方法严重依赖于大规模文本描述数据进行监督微调,对标注数据的需求巨大,泛化能力和灵活性不足。

针对上述问题,北大与字节跳动联合提出了基于强化学习的图像质量理解新模型—Q-Insight。与以往方法不同的是,Q-Insight不再简单地让模型拟合真实评分(GT),而是将评分视作一种引导信号,促使模型深入思考、推理图像质量的本质原因。

通过这种创新思路,Q-Insight在质量评分、退化感知、多图比较、原因解释等多个任务上均达到业界领先水平,具备出色的准确性和泛化推理能力,有望为图像画质增强、AI内容生成等多个领域提供强有力的技术支撑。


主要贡献

Q-Insight首次将强化学习引入图像质量评估任务,创造性地运用了“群组相对策略优化”(GRPO)算法,不再依赖大量的文本监督标注,而是挖掘大模型自身的推理潜力,实现对图像质量的深度理解。

如图所示,Q-Insight不仅输出单纯的得分、退化类型或者比较结果,而是提供了从多个角度综合评估画质的详细推理过程。

在实际训练过程中,研究团队发现单独以评分作为引导无法充分实现良好的画质理解,原因是模型对图像退化现象不够敏感。

为了解决这一问题,论文创新性地引入了多任务GRPO优化,设计了可验证的评分奖励、退化分类奖励和强度感知奖励,联合训练评分回归与退化感知任务。

这种多任务联合训练的策略,显著提高了各个任务的表现,证明了任务之间存在的强互补关系。


实验结果

实验结果充分验证了Q-Insight在图像质量评分、退化检测和零样本推理任务中的卓越表现:

    在图像质量评分任务上,Q-Insight在多个公开数据集上的表现均超过当前最先进的方法,特别是在域外数据上的泛化能力突出,并能够提供完整详细的推理过程。
    在退化感知任务上,Q-Insight的表现显著优于现有的退化感知模型,尤其是在噪声(Noise)和JPEG压缩退化类型识别的准确性上。
    在零样本图像比较推理任务上,Q-Insight无需额外监督微调,即可准确、细致地分析和比较图像质量,展示出强大的泛化推理能力。

VILLA实验室简介

视觉信息智能学习实验室(VILLA)由北京大学长聘副教授张健于2019年创立,致力于视觉重建与生成、AIGC内容安全等前沿领域的研究,成立以来已在TPAMI、TIP、IJCV、CVPR、ICCV、NeurIPS等顶级期刊会议上发表论文100余篇,其开源项目在GitHub平台获得广泛关注,累计star数超过10k。

实验室负责人张健副教授谷歌学术引用逾1.1万次,h-index达52,其单篇一作论文最高被引超1300次,累计荣获国际期刊/会议最佳论文奖6项及全球挑战赛冠军1项。

近期代表工作包括:图像条件可控生成模型T2I-Adapter、拖拽式细粒度图像/视频编辑DragonDiffusion/ReVideo、全景视频生成模型360DVD、全景内容处理/增强方案ResVR/OmniSSR、零值域扩散重建模型DDNM、高效扩散超分方案AdcSR、动态场景重建框架HiCoM/OpenGaussian、实用图像压缩感知重建PCNet、多模态篡改检测大模型FakeShield、支持AIGC篡改定位与版权保护水印技术OmniGuard/EditGuard、多模态画质理解大模型Q-Insight等。多项技术已成功应用于产业界,获得国内外知名企业的产品化落地。

实验室动态可通过官网(https://villa.jianzhang.tech/)或张健老师个人主页(https://jianzhang.tech/)查看。

最新 AI 进展报道
请联系:amos@52cv.net

END




欢迎加入「大模型交流群👇备注:LLM




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Q-Insight 图像质量评估 强化学习 北大 字节跳动
相关文章