52CV 2025-07-10 11:48 山东

代码已开源

关注公众号，发现CV技术之美

在短视频爆火的时代，你是否也曾遇到过这样的困扰：手机拍摄的生活片段模糊不清，老电影修复后画面闪烁，AI 生成的虚拟场景细节失真？视频超分辨率（VSR）技术正是解决这些问题的关键，但面对复杂的真实场景和 AI 生成内容（AIGC），传统方法往往难以兼顾画质提升与时间一致性。

为此，DAM-VSR将视频超分辨率任务解耦为外观增强和运动控制的框架。外观增强通过参考图像超分辨率（ISR）实现，充分利用图像超分辨率模型先进的细节生成能力；运动控制则由视频 ControlNet 完成，借助视频扩散模型（Stable Video Diffusion, SVD）的生成先验保证时间一致性。此外，还引入了运动对齐的双向采样策略，以支持长视频超分辨率任务并减轻闪烁伪影。DAM-VSR 在合成数据、真实世界数据和 AIGC 数据上均取得了最先进的性能，展现出卓越的细节生成能力和时间连贯性。

论文链接：https://arxiv.org/abs/2507.01012

项目主页：https://kongzhecn.github.io/projects/dam-vsr/

论文代码：https://github.com/kongzhecn/DAM-VSR

一、研究背景

视频超分辨率（VSR）的目标是从低分辨率输入生成高分辨率视频，并保持运动一致性。传统方法多聚焦于合成退化或特定相机退化，难以泛化到具有复杂伪影的真实世界视频。基于 GAN 的方法虽能生成平滑运动，但缺乏精细细节；而基于图像扩散的 VSR 方法虽能生成逼真细节，却因逐帧处理导致时间不一致。

视频扩散模型为解决时间一致性提供了潜力，但现有方法如 VEnhancer牺牲了保真度，SeedVR则需要海量训练数据。

为此，在探索真实世界视频超分辨率（VSR）的解决方案时，我们最初将目光投向了 Stable Video Diffusion（SVD）这一强大的图像到视频（I2V）扩散模型，并尝试结合 ControlNet 来提升生成结果的时序一致性。SVD 的核心优势在于其能以一张参考图像为条件，生成时序连贯的视频序列，而 ControlNet 则以其对生成过程的精准控制能力著称 —— 理论上，通过将低质量视频作为条件输入 ControlNet，能够约束 SVD 的生成过程，使其在提升分辨率的同时保持与原始视频的运动一致性。

然而，初步实验结果却未达预期。如图 2 所示，图 2a 为输入的低质量视频，图 2b 是仅使用 SVD 结合 ControlNet（未引入图像超分增强）生成的结果。可以观察到，尽管生成的视频在运动轨迹上与输入视频有一定的一致性（得益于 ControlNet 的约束），但整体画质提升有限，细节依然模糊，缺乏真实纹理 —— 例如，图像中的边缘轮廓仍显粗糙，物体表面的细微纹理（如布料的褶皱、墙面的颗粒感）未能有效恢复。这种 “改善微弱” 的现象揭示了一个关键问题：SVD 作为 I2V 模型，其生成视频的整体外观高度依赖于输入的参考图像。由于原始低质量视频的参考帧（如首帧）本身缺乏清晰的细节和纹理，仅依靠 ControlNet 对运动的约束无法弥补外观信息的缺失。

SVD 的内在特性决定了它更擅长 “动画化” 参考图像（即扩展运动），而非从低质量参考中 “创造” 全新的细节，因此单纯依赖 SVD+ControlNet 的框架，难以突破低质量输入带来的外观瓶颈。

为验证这一分析，我们进行了针对性的改进尝试：引入图像超分（ISR）技术增强参考帧的质量。具体而言，我们首先对输入低质量视频的首帧（参考帧）使用成熟的 ISR 模型进行超分，得到一张细节丰富、纹理真实的高质量参考图（图 2c 中增强的参考帧）；随后，我们重新训练了一个以 “低质量视频 + 高质量参考图” 为联合条件的 ControlNet，让 SVD 在生成过程中既能通过高质量参考图获取外观细节，又能通过低质量视频维持运动一致性。

实验结果如图 2c 所示，与图 2b 相比，引入 ISR 增强后，生成视频的细节丰富度显著提升，物体边缘更锐利，纹理更自然 —— 这一改善直接验证了我们的判断：参考图像的质量是制约 SVD 在 VSR 中表现的核心因素，而 ISR 技术能够有效补充外观信息的缺失。

基于上述尝试与分析，我们进一步意识到：VSR 任务中 “外观增强” 与 “运动控制” 是两个可解耦的子问题。前者需要强大的细节生成能力（ISR 模型更擅长），后者需要精准的时序一致性约束（SVD+ControlNet 更擅长）。

图 2 的对比清晰展示了这一逻辑：图 2b（无 ISR 增强）证明仅靠运动控制无法解决外观缺陷，图 2c（有 ISR 增强）证明补充外观信息后性能的显著提升，而最终我们的 DAM-VSR 方法（图 2d）则通过系统性的解耦设计，将两者的优势最大化融合，生成了接近真值（图 2e）的高质量视频。这些探索为 DAM-VSR 框架的提出奠定了关键的实验基础和理论依据。

二、研究方法

2.1 外观与运动解耦生成（Appearance and Motion Disentanglement Generation）

给定一个由帧组成的低质量视频片段={,,⋯,}（在本研究中，的取值与 SVD 保持一致，即 14 帧），我们的目标是利用 SVD 的生成先验，生成对应的高质量视频片段。

SVD 作为一种以参考图像为条件的图像到视频扩散模型，能够将输入的参考图像（通常为第一帧）“动画化” 以生成完整视频，其生成视频的整体外观由参考图像控制。基于这一特性，我们发现：高质量的参考图像能显著提升生成视频的细节丰富度，而低质量视频序列则可通过约束模型生成过程来保证运动的时序一致性。因此，我们将 VSR 任务解耦为两个独立子任务：外观增强与运动控制，并分别设计相应模块实现。

2.1.1 外观增强：参考图像超分辨率

外观增强的核心是通过图像超分辨率（ISR）技术提升参考帧的质量，为视频生成提供细节先验。近年来，ISR 方法（如 SupIR、InvSR）取得了显著进展，且其性能在视觉效果和评价指标上均领先于 VSR 方法，能够从低质量图像中生成具有真实纹理和清晰细节的高清结果。

具体而言，我们选择低质量视频的首帧作为参考帧，通过 ISR 模型生成对应的高质量参考图像，公式表示为：=()
其中，表示图像超分辨率模型，∈为低质量参考帧，∈为生成的 4 倍超分高质量参考帧（默认超分倍数为 4）。

通过这一过程，高质量参考帧中包含的真实纹理和细节，将通过 SVD 的时序生成能力传播至视频的其余帧，从而提升整个视频的外观质量。此外，通过选择不同的 ISR 模型（如侧重保真度的 ResShift 或侧重感知质量的SupIR），可灵活权衡生成视频的 “真实性” 与 “视觉美感”，这一特性为 DAM-VSR 提供了良好的适应性。

2.1.2 运动控制

运动控制的目标是确保生成的高清视频与输入低质量视频的运动轨迹一致，维持时序连贯性。我们基于 SVD 的网络结构，引入视频 ControlNet 实现这一约束，其整体架构如图 4 所示，主要包含视频 ControlNet和去噪 UNet两个核心组件。

通过这种设计，视频 ControlNet 能够将低质量视频中的运动信息 “注入” SVD 的生成过程，使模型在利用生成细节的同时，严格遵循原始视频的运动轨迹，最终输出具有时序一致性的去噪噪声预测。

2.1.3 高分辨率视频生成的内存优化

视频扩散模型在推理过程中需要处理高维潜变量（如 14 ×576×1024 分辨率的视频），对内存需求极高。为支持高分辨率视频超分，我们引入分块采样（tile sampling） 策略：将输入视频在空间维度划分为重叠的子块，独立对每个子块进行扩散去噪，最后通过融合子块的重叠区域得到完整视频。这一策略显著降低了内存消耗，使 DAM-VSR 能够处理更高分辨率的输入。

2.2 长视频超分

SVD 的生成能力受限于帧长（最多 14 帧），直接拼接短片段会导致长视频出现闪烁、跳变等时序不一致问题。为解决这一问题，我们提出运动对齐的双向采样策略（motion-aligned bidirectional sampling），通过片段重叠划分、双向生成与运动对齐，实现长视频的无闪烁超分。

2.2.1 运动对齐的双向采样

双向采样的核心是对每个视频片段同时进行 “正向生成” 和 “反向生成”，并通过运动对齐保证两者的一致性，最终融合得到高质量中间帧。其具体过程如下：

正向生成（Forward Generation）：从首帧到尾帧预测去噪噪声

反向生成（Backward Generation）：从尾帧到首帧预测去噪噪声，通过运动对齐与正向生成保持一致：首先对潜变量和视频片段进行帧序反转，接着对时序注意力图进行 180 度旋转，得到反向运动注意力图；最后进行反向噪声预测

噪声融合（Noise Blending）：将反向噪声反转后与正向噪声平均，得到最终去噪噪声

迭代去噪：根据预测噪声更新潜变量，重复至=0，经 VAE 解码得到高质量视频片段。

2.2.2 长视频拼接

结合双向采样，长视频生成过程如下（图 5）：

片段划分：将长视频={,,⋯,}（≫14）划分为重叠片段,,⋯,，相邻片段共享首尾帧（如的尾帧为的首帧）；