我爱计算机视觉 4小时前
南大&复旦&南洋理工等提出LongVie:突破一分钟界限,迈向可控的超长视频生成!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

视频生成技术在2024年迎来爆发,但生成一分钟以上、内容动态风格高度可控的超长视频仍是巨大挑战。现有方法常出现闪烁、画风不一、画面模糊等问题。南京大学等联合提出的LongVie框架,通过统一噪声、全局归一化、多模态控制和退化感知训练四大核心设计,成功生成了长达一分钟、高分辨率、高保真且时间稳定的可控视频,在长距离可控性、一致性和质量方面达到SOTA性能,为影视制作、游戏等领域带来新可能。

💡统一噪声初始化策略:LongVie摒弃了传统方法为每个视频片段生成独立随机噪声的做法,而是将前一个片段的最终噪声状态作为下一个片段的起始噪声,从而在底层建立了平滑连接,从根本上保证了生成过程的连续性,有效解决了视频片段间的闪烁和内容突变问题。

🌟全局控制信号归一化:该框架对所有控制信号(如深度图、姿态骨骼)在整个视频的时间维度上进行一次性全局归一化。这确保了无论视频时长如何,控制信号的“度量衡”始终统一,避免了动作和场景在长时间生成过程中出现的“漂移”现象,提升了整体的控制一致性。

🎨多模态控制框架:LongVie不再依赖单一信息源,而是创造性地融合了密集控制信号(如深度图提供几何信息)和稀疏控制信号(如人体关键点提供结构信息)。这两种信号互为补充,增强了对生成过程的约束力,有效防止了细节丢失,提高了视频的保真度。

🧠退化感知训练策略:此智能设计使模型在训练过程中能够感知生成质量下降的趋势,并自适应地调整不同模态控制信号的权重。当模型检测到画面质量可能下降时,会优先信任更稳定的稀疏控制信号,从而将画质“拉”回正常轨道,确保了视频质量的稳定性。

CV君 2025-08-06 21:44 江苏

四大核心设计(统一噪声、全局归一化、多模态控制、退化感知训练)实现高质量、高稳定性的超长视频生成

从Sora的惊艳亮相到Kling的开源,视频生成技术在2024年迎来了爆发。然而,无论是学术界还是工业界,生成几十秒的短片已是极限,想要生成 一分钟以上、且内容、动态、风格都高度可控的 超长视频,仍然是一个悬而未决的巨大挑战。

为什么长视频生成这么难?现有方法在拼接视频片段时,往往会出现恼人的“闪烁”、前后画风不一的 时间不一致性,以及越到后面、画面越模糊崩坏的 视觉质量下降 问题。

为了系统性地解决这些顽疾,来自南京大学、复旦大学、南洋理工大学、英伟达和上海人工智能实验室的顶尖研究团队,联合提出了一个名为 LongVie 的端到端自回归框架。通过一系列直击痛点的核心设计,LongVie 成功生成了 长达一分钟、高分辨率、高保真且时间稳定的可控视频,在长距离可控性、一致性和质量方面均达到了当前最先进(SOTA)的性能。

长视频生成的“三座大山”

在提出解决方案前,研究者首先通过实验,精准诊断了导致长视频生成失败的三个根本原因:

    独立的噪声初始化 (Separate Noise Initialization): 现有方法在生成下一个视频片段时,会使用全新的随机噪声,这导致新旧片段之间缺乏底层连续性,产生闪烁和内容突变。

    独立的控制信号归一化 (Independent Control Signal Normalization): 控制信号(如深度图、姿态骨骼)在每个片段内被独立归一化,导致整个视频的控制尺度不统一,动作和场景看起来会“漂移”。

    单模态引导的局限性 (Limitations of Single-Modality Guidance): 单纯依赖一种控制信号(如只用深度图),在长时间生成中容易累积误差,导致细节丢失和视觉质量下降。

下图清晰地展示了这些问题:独立的噪声和归一化导致了时间上的不一致,而单一模态的控制导致了视觉质量的崩坏。

时间不一致和质量下降
时间不一致性分析
单模态控制引起的视觉退化

LongVie 的四大“神兵利器”

针对上述三大痛点,LongVie 提出了一个完整的解决方案,其核心框架如下图所示。它以自回归(Autoregressive)的方式,即逐个片段地生成视频,并引入了四大核心设计。

为确保时间一致性:

    统一的噪声初始化策略: LongVie 不再为每个新片段使用随机噪声,而是将前一个片段的最终噪声状态作为下一个片段的起始噪声。这就像在两段胶片之间建立了平滑的底层连接,从根本上保证了生成过程的连续性。

    全局控制信号归一化: 对所有控制信号在整个视频的时间维度上进行一次性的全局归一化。这确保了无论视频有多长,控制信号的“度量衡”都是统一的,从而避免了动作和场景的漂移。

为缓解视觉质量下降:

    多模态控制框架: LongVie 不再依赖单一信息源,而是创造性地融合了 密集控制信号(如深度图,提供丰富的几何信息)和 稀疏控制信号(如人体关键点,提供精确的结构信息)。这两种信号互为补充,大大增强了对生成过程的约束力,有效防止了细节丢失。

    退化感知训练策略: 这是一项非常智能的设计。在训练过程中,模型被教会去感知生成质量何时可能开始下降,并自适应地调整不同模态控制信号的权重。例如,当模型感觉画面要“糊”了的时候,它可能会更信任稀疏但稳定的关键点信号,从而将画质“拉”回正轨。

实验结果:眼见为实

LongVie 的效果令人印象深刻。无论是从3D动画模型生成逼真的视频,还是在真实场景中进行内容创作,LongVie 都能生成细节丰富、动作连贯、质量稳定的超长视频。

视频编辑
运动&场景迁移
网格-视频

定量结果表明,LongVie在所有基线中实现了最佳时序一致性和可控性,达到最先进性能。

在与现有顶尖方法进行的用户研究中,LongVie 在长距离可控性、时间一致性、视觉质量等所有五个维度的评比中,都获得了用户的最高偏好度,全面胜出。

消融实验也充分证明,上述提到的四大核心设计,每一个都对最终的卓越性能至关重要。

论文贡献与价值

    系统性地诊断了长视频生成的核心难题,并提出了针对性的、完整的解决方案。

    提出了 LongVie 框架,其四大核心设计(统一噪声、全局归一化、多模态控制、退化感知训练)为实现高质量、高稳定性的超长视频生成提供了全新的范式。

    创建了 LongVGenBench,这是 首个 专为超长视频生成任务设计的综合性基准数据集,包含100个时长超过一分钟的高分辨率视频,极大地推动了该领域未来的研究。

    实现了 SOTA 性能,将可控视频生成的时长和质量推向了一个新的高度,为视频AIGC的下游应用,如影视制作、游戏、虚拟人等,打开了更广阔的想象空间。

了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LongVie 超长视频生成 AI视频 多模态控制 时间一致性
相关文章