CV君 2025-08-06 21:44 江苏

四大核心设计（统一噪声、全局归一化、多模态控制、退化感知训练）实现高质量、高稳定性的超长视频生成

从Sora的惊艳亮相到Kling的开源，视频生成技术在2024年迎来了爆发。然而，无论是学术界还是工业界，生成几十秒的短片已是极限，想要生成一分钟以上、且内容、动态、风格都高度可控的超长视频，仍然是一个悬而未决的巨大挑战。

为什么长视频生成这么难？现有方法在拼接视频片段时，往往会出现恼人的“闪烁”、前后画风不一的时间不一致性，以及越到后面、画面越模糊崩坏的视觉质量下降问题。

为了系统性地解决这些顽疾，来自南京大学、复旦大学、南洋理工大学、英伟达和上海人工智能实验室的顶尖研究团队，联合提出了一个名为 LongVie 的端到端自回归框架。通过一系列直击痛点的核心设计，LongVie 成功生成了长达一分钟、高分辨率、高保真且时间稳定的可控视频，在长距离可控性、一致性和质量方面均达到了当前最先进（SOTA）的性能。

论文标题: LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

作者: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu

机构: 南京大学；复旦大学；南洋理工大学；英伟达；上海人工智能实验室

论文地址: https://arxiv.org/pdf/2508.03694v1

项目主页: https://vchitect.github.io/LongVie-project/

代码地址: https://github.com/vchitect/LongVie

长视频生成的“三座大山”

在提出解决方案前，研究者首先通过实验，精准诊断了导致长视频生成失败的三个根本原因：

独立的噪声初始化 (Separate Noise Initialization): 现有方法在生成下一个视频片段时，会使用全新的随机噪声，这导致新旧片段之间缺乏底层连续性，产生闪烁和内容突变。

独立的控制信号归一化 (Independent Control Signal Normalization): 控制信号（如深度图、姿态骨骼）在每个片段内被独立归一化，导致整个视频的控制尺度不统一，动作和场景看起来会“漂移”。

单模态引导的局限性 (Limitations of Single-Modality Guidance): 单纯依赖一种控制信号（如只用深度图），在长时间生成中容易累积误差，导致细节丢失和视觉质量下降。

下图清晰地展示了这些问题：独立的噪声和归一化导致了时间上的不一致，而单一模态的控制导致了视觉质量的崩坏。

LongVie 的四大“神兵利器”

针对上述三大痛点，LongVie 提出了一个完整的解决方案，其核心框架如下图所示。它以自回归（Autoregressive）的方式，即逐个片段地生成视频，并引入了四大核心设计。

为确保时间一致性：

统一的噪声初始化策略: LongVie 不再为每个新片段使用随机噪声，而是将前一个片段的最终噪声状态作为下一个片段的起始噪声。这就像在两段胶片之间建立了平滑的底层连接，从根本上保证了生成过程的连续性。

全局控制信号归一化: 对所有控制信号在整个视频的时间维度上进行一次性的全局归一化。这确保了无论视频有多长，控制信号的“度量衡”都是统一的，从而避免了动作和场景的漂移。

为缓解视觉质量下降：

多模态控制框架: LongVie 不再依赖单一信息源，而是创造性地融合了密集控制信号（如深度图，提供丰富的几何信息）和稀疏控制信号（如人体关键点，提供精确的结构信息）。这两种信号互为补充，大大增强了对生成过程的约束力，有效防止了细节丢失。

退化感知训练策略: 这是一项非常智能的设计。在训练过程中，模型被教会去感知生成质量何时可能开始下降，并自适应地调整不同模态控制信号的权重。例如，当模型感觉画面要“糊”了的时候，它可能会更信任稀疏但稳定的关键点信号，从而将画质“拉”回正轨。

实验结果：眼见为实

LongVie 的效果令人印象深刻。无论是从3D动画模型生成逼真的视频，还是在真实场景中进行内容创作，LongVie 都能生成细节丰富、动作连贯、质量稳定的超长视频。

定量结果表明，LongVie在所有基线中实现了最佳时序一致性和可控性，达到最先进性能。

在与现有顶尖方法进行的用户研究中，LongVie 在长距离可控性、时间一致性、视觉质量等所有五个维度的评比中，都获得了用户的最高偏好度，全面胜出。

消融实验也充分证明，上述提到的四大核心设计，每一个都对最终的卓越性能至关重要。

论文贡献与价值

系统性地诊断了长视频生成的核心难题，并提出了针对性的、完整的解决方案。

提出了 LongVie 框架，其四大核心设计（统一噪声、全局归一化、多模态控制、退化感知训练）为实现高质量、高稳定性的超长视频生成提供了全新的范式。

创建了 LongVGenBench，这是首个专为超长视频生成任务设计的综合性基准数据集，包含100个时长超过一分钟的高分辨率视频，极大地推动了该领域未来的研究。

实现了 SOTA 性能，将可控视频生成的时长和质量推向了一个新的高度，为视频AIGC的下游应用，如影视制作、游戏、虚拟人等，打开了更广阔的想象空间。

了解最新 AI 进展，欢迎关注公众号
投稿寻求报道请发邮件：amos@52cv.net

阅读原文

跳转微信打开

长视频生成的“三座大山”

LongVie 的四大“神兵利器”

实验结果：眼见为实

论文贡献与价值

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签