我爱计算机视觉 07月19日 07:42
ICCV 2025 | DiT4SR:融合扩散Transformer的真实图像超分辨率新范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文提出DiT4SR,一种创新的扩散Transformer(DiT)架构,专注于解决真实场景图像超分辨率(Real-ISR)的挑战。通过在DiT中引入低分辨率图像的双向注意力机制和跨流卷积模块,DiT4SR能更有效地捕捉全局与局部图像信息,显著提升细节恢复和视觉质量。实验证明,DiT4SR在多个真实场景基准数据集上取得了领先性能,尤其在结构细节和纹理清晰度方面表现突出,为图像重建领域带来了新的突破。

💡 DiT4SR架构有效融合了扩散Transformer(DiT)与真实场景图像超分辨率(Real-ISR)任务,通过关键性结构改进,克服了现有方法在处理复杂退化图像时的局限性。

🔄 核心创新在于引入低分辨率图像(LR)的双向注意力机制,实现LR引导信息与噪声流的深度交互,使引导过程更动态、上下文相关,从而提升图像的整体连贯性。

🧱 针对Transformer结构偏重全局建模的特点,DiT4SR在MLP模块间增加了跨流卷积,增强了对局部细节的捕捉能力,特别是在文字、边缘等结构敏感区域的恢复效果显著。

🏆 DiT4SR在DRealSR、RealSR、RealLR200、RealLQ250等多个真实超分数据集上取得了领先性能,在无参考指标上得分最高,证明了其在感知质量和保真度上的卓越表现。

🚀 该研究为大规模预训练扩散Transformer在图像恢复领域的应用开辟了新途径,展示了其在提升图像重建效果和细节清晰度方面的巨大潜力,并提供了在线演示供用户体验。

2025-07-11 11:44 美国

关注公众号,发现CV技术之美


预训练扩散模型与Transformer架构的结合在图像生成领域表现出色,但在真实场景图像超分辨率任务(Real-ISR)中的表现仍有待提升。本论文提出了一种名为DiT4SR(DiT4SR: Taming Diffusion Transformer for Real-World Image Super-Resolution)的创新架构,通过在扩散Transformer(DiT)中引入低分辨率图像的双向注意力机制以及跨流卷积模块,更有效地捕获全局与局部图像信息,显著提高了图像超分辨率任务中的细节恢复与视觉质量。DiT4SR在多个真实场景基准数据集上取得了领先的性能表现,展示了在图像重建效果和细节清晰度方面的巨大潜力。

研究背景

真实图像超分辨率(Real-ISR)旨在从包含复杂退化(如压缩、模糊、噪声等)的低质量图像中恢复出高质量图像,相较于合成退化图像,Real-ISR任务更具挑战性。近年来,Stable Diffusion 等大规模预训练的扩散模型(如 SD1, SD2, SDXL)被用于生成高质量图像,其强大的生成能力和自然图像先验使其成为 Real-ISR 的有力候选方案。

然而,主流方法通常基于UNet结构的扩散模型,并借助 ControlNet 将低分辨率图像嵌入作为条件输入,用于指导图像生成。这类方法虽然取得了一定成功,但由于缺乏与生成潜变量的充分交互,常会在真实场景中出现结构错乱、纹理缺失等问题。

近期扩散Transformer(DiT)的出现带来了新的可能。DiT架构通过双流注意力机制有效结合多模态信息(如图像和文本),在高分辨率图像生成任务中已展现出超越UNet的性能。但其庞大的结构和预训练方式给Real-ISR任务带来新的适配挑战。因此,本论文提出DiT4SR架构,旨在挖掘DiT在图像超分领域的潜力,并提出适用于Real-ISR场景的结构性改进。

研究方法

DiT4SR基于SD3的扩散Transformer架构,并对其进行了三项关键性结构改进,使其更适配真实图像超分辨率任务:

    双向注意力机制中的LR信息融合(LR Integration): 相较于传统使用ControlNet将LR信息单向注入噪声流,DiT4SR直接将LR嵌入流(LR Stream)与噪声流(Noise Stream)共同引入原始DiT块内部的注意力计算中,实现信息的双向交互。这种方式使得LR引导可以随着扩散过程不断演化,提供动态、上下文相关的指导。

    引入LR残差连接(LR Residual): 为缓解深层Transformer块中LR引导信息逐渐衰减的问题,DiT4SR在每个MM-DiT块中加入了残差连接,将初始LR输入直接传递至注意力模块输出,从而保持LR信息的一致性与稳定性,提升图像结构还原的连贯性。

    跨流卷积增强局部信息引导(LR Injection): 鉴于Transformer结构偏向全局建模,缺乏对局部细节的建模能力,DiT4SR在MLP模块之间引入3×3深度卷积,将LR流的中间特征映射到噪声流中。这一设计有效增强了局部纹理与细节的重建能力,特别是在文字、边缘等结构敏感区域表现显著提升。

通过上述设计,DiT4SR不仅实现了从架构层面对DiT的适配,还充分激发了其在Real-ISR中的潜能,成为首批真正将大规模扩散Transformer有效应用于超分任务的工作之一。

实验结果

定量结果

在DRealSR、RealSR、RealLR200、RealLQ250四个真实超分数据集上,DiT4SR在多个主流图像质量评价指标上取得了领先或有竞争力的性能。其中,在RealLR200和RealLQ250数据集上,DiT4SR在所有无参考指标中取得最高分,显示出卓越的图像感知质量与保真度。

定性结果

DiT4SR在多个真实图像退化场景中表现出色,尤其在恢复图像中的细节结构方面优于现有方法。论文中展示了在 RealSR、RealLQ250 等数据集上的图像重建结果,与现有先进方法(如SUPIR、DreamClear)对比,DiT4SR在文字、边缘、建筑线条等结构细节处更清晰、更真实,视觉上更具自然感。

如需查看更多可视化结果或对比分析,欢迎访问项目主页:https://adam-duan.github.io/projects/dit4sr/,或在 HuggingFace Space上直接体验该方法:https://huggingface.co/spaces/acceptee/DiT4SR。

研究贡献

    系统探索如何将扩散Transformer(DiT)有效用于真实图像超分辨率(Real-ISR)任务,提出DiT4SR架构,充分释放大规模预训练DiT模型在图像恢复中的潜力;

    设计了双向信息融合机制,将低分辨率引导信息直接嵌入到DiT块的注意力计算中,实现动态适应的上下文建模;

    引入局部增强结构,弥补DiT对细节捕捉能力的不足,有效提升图像质量,尤其在文字和边缘结构等区域;

    在多个真实场景数据集上展示优越性能,在感知质量、结构保真与用户偏好等维度全面验证了方法的有效性与实用价值。

了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net

END

欢迎加入「超分辨率交流群👇备注:SR


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DiT4SR 图像超分辨率 扩散Transformer AI图像生成 计算机视觉
相关文章