CV君 2025-08-06 21:44 江苏
四大核心设计(统一噪声、全局归一化、多模态控制、退化感知训练)实现高质量、高稳定性的超长视频生成
从Sora的惊艳亮相到Kling的开源,视频生成技术在2024年迎来了爆发。然而,无论是学术界还是工业界,生成几十秒的短片已是极限,想要生成 一分钟以上、且内容、动态、风格都高度可控的 超长视频,仍然是一个悬而未决的巨大挑战。
为什么长视频生成这么难?现有方法在拼接视频片段时,往往会出现恼人的“闪烁”、前后画风不一的 时间不一致性,以及越到后面、画面越模糊崩坏的 视觉质量下降 问题。
为了系统性地解决这些顽疾,来自南京大学、复旦大学、南洋理工大学、英伟达和上海人工智能实验室的顶尖研究团队,联合提出了一个名为 LongVie 的端到端自回归框架。通过一系列直击痛点的核心设计,LongVie 成功生成了 长达一分钟、高分辨率、高保真且时间稳定的可控视频,在长距离可控性、一致性和质量方面均达到了当前最先进(SOTA)的性能。
论文标题: LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation
作者: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
机构: 南京大学;复旦大学;南洋理工大学;英伟达;上海人工智能实验室
论文地址: https://arxiv.org/pdf/2508.03694v1
长视频生成的“三座大山”
在提出解决方案前,研究者首先通过实验,精准诊断了导致长视频生成失败的三个根本原因:
独立的噪声初始化 (Separate Noise Initialization): 现有方法在生成下一个视频片段时,会使用全新的随机噪声,这导致新旧片段之间缺乏底层连续性,产生闪烁和内容突变。
独立的控制信号归一化 (Independent Control Signal Normalization): 控制信号(如深度图、姿态骨骼)在每个片段内被独立归一化,导致整个视频的控制尺度不统一,动作和场景看起来会“漂移”。
单模态引导的局限性 (Limitations of Single-Modality Guidance): 单纯依赖一种控制信号(如只用深度图),在长时间生成中容易累积误差,导致细节丢失和视觉质量下降。
下图清晰地展示了这些问题:独立的噪声和归一化导致了时间上的不一致,而单一模态的控制导致了视觉质量的崩坏。
LongVie 的四大“神兵利器”
针对上述三大痛点,LongVie 提出了一个完整的解决方案,其核心框架如下图所示。它以自回归(Autoregressive)的方式,即逐个片段地生成视频,并引入了四大核心设计。
为确保时间一致性:
统一的噪声初始化策略: LongVie 不再为每个新片段使用随机噪声,而是将前一个片段的最终噪声状态作为下一个片段的起始噪声。这就像在两段胶片之间建立了平滑的底层连接,从根本上保证了生成过程的连续性。
全局控制信号归一化: 对所有控制信号在整个视频的时间维度上进行一次性的全局归一化。这确保了无论视频有多长,控制信号的“度量衡”都是统一的,从而避免了动作和场景的漂移。
为缓解视觉质量下降:
多模态控制框架: LongVie 不再依赖单一信息源,而是创造性地融合了 密集控制信号(如深度图,提供丰富的几何信息)和 稀疏控制信号(如人体关键点,提供精确的结构信息)。这两种信号互为补充,大大增强了对生成过程的约束力,有效防止了细节丢失。
退化感知训练策略: 这是一项非常智能的设计。在训练过程中,模型被教会去感知生成质量何时可能开始下降,并自适应地调整不同模态控制信号的权重。例如,当模型感觉画面要“糊”了的时候,它可能会更信任稀疏但稳定的关键点信号,从而将画质“拉”回正轨。
实验结果:眼见为实
LongVie 的效果令人印象深刻。无论是从3D动画模型生成逼真的视频,还是在真实场景中进行内容创作,LongVie 都能生成细节丰富、动作连贯、质量稳定的超长视频。
定量结果表明,LongVie在所有基线中实现了最佳时序一致性和可控性,达到最先进性能。
在与现有顶尖方法进行的用户研究中,LongVie 在长距离可控性、时间一致性、视觉质量等所有五个维度的评比中,都获得了用户的最高偏好度,全面胜出。
消融实验也充分证明,上述提到的四大核心设计,每一个都对最终的卓越性能至关重要。
论文贡献与价值
系统性地诊断了长视频生成的核心难题,并提出了针对性的、完整的解决方案。
提出了 LongVie 框架,其四大核心设计(统一噪声、全局归一化、多模态控制、退化感知训练)为实现高质量、高稳定性的超长视频生成提供了全新的范式。
创建了 LongVGenBench,这是 首个 专为超长视频生成任务设计的综合性基准数据集,包含100个时长超过一分钟的高分辨率视频,极大地推动了该领域未来的研究。
实现了 SOTA 性能,将可控视频生成的时长和质量推向了一个新的高度,为视频AIGC的下游应用,如影视制作、游戏、虚拟人等,打开了更广阔的想象空间。
了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net