新智元报道
新智元报道
MirageLSD是首个能够生成无限长度视频的视频生成模型。模型的自回归特性使其容易累积误差,从而限制了输出的长度。为了实现无限自回归生成:基于DiffusionForcing技术进行构建,该技术支持逐帧去噪。引入了历史增强技术,其中模型在经过损坏的历史帧输入上进行微调。这使其能够预测并修正输入中的伪影,从而增强其对自回归生成中常见漂移的鲁棒性。这些特点使LSD成为首个能够无限生成视频。实现「实时」性能
实时生成要求每一帧的生成时间不超过40毫秒,以避免被肉眼察觉。通过以下方式实现这一目标:设计自定义的CUDA超大内核,以最大限度地减少开销并提高吞吐量。在快捷蒸馏和模型剪枝的基础上,减少了每帧所需的计算量。优化模型架构以与GPU硬件对齐,实现最高效率。这些技术共同作用,使响应速度比之前的模型提高了16倍,从而实现了每秒24帧的实时视频生成。AI视频仍然缺少交互性
像MovieGen、WAN和Veo这样的定长模型可以生成高质量的视频片段,但它们的非因果设计和全片段推理会引入延迟,并且无法实现实时交互或超出预定义长度的扩展。这意味着AI视频缺少交互性。诸如CausVid、LTX和Seeweed-APT之类的自回归模型通过将每个块的生成依赖于先前的输出来生成更长的序列。虽然这种方法提高了可扩展性,但分块推理仍然限制了响应速度,并存在误差累积的问题,限制了生成长度,排除了真正的交互可能性。可控生成方法,包括ControlNet和基于LoRA的适配器,能够实现目标编辑和风格迁移,但需要离线微调,不适合实时逐帧提示。Decart之前的系统Oasis展示了在受限领域内首个实时因果生成。实时扩散模型MirageLSD将其扩展到开放领域、可提示的视频,实现零延迟、实时速度和无限稳定性——这是之前的工作未能同时实现的组合。MirageLSD可以将现实世界中的实物转化为流媒体中的神话物品——将棍棒打斗变成光剑表演。扩散模型通过逐步去除随机噪声来生成图像或视频。在视频生成过程中,这通常意味着一次性生成固定长度的片段,这种方法有助于保持时间一致性,但会引入延迟。一些系统试图通过按顺序生成帧块来提高灵活性,这种技术被称为自回归生成。然而,每个帧块仍需完全生成后,模型才能响应新的输入,从而限制了交互性和实时应用。LSD采用了一种不同的方法。它一次生成一帧画面,使用因果关系的自回归结构,其中每一帧都依赖于先前生成的帧和用户提示。这种方式实现了即时反馈、零延迟交互,并且视频生成可以持续进行而无需预定义终点。这种因果反馈循环使LSD能够保持时间一致性,持续适应运动和内容,并在实时响应用户提示的同时生成无限视频序列。此外,它还能让LSD即时响应输入内容——无论是文本提示还是视频内容的变化——且实现零延迟。这使得实时编辑和转换成为可能。为了实现这一点,Decart使用了扩散强制(Diffusion Forcing)——一种预训练方法,其中训练视频的每一帧都独立添加噪声。这教会了模型在不依赖完整视频上下文的情况下对单帧进行去噪,从而实现了逐帧生成。打开LSD的「发动机舱盖」LSD的神奇之处在于:能够在严格的延迟预算(低于40毫秒)内独立生成每一帧,以支持持续的24FPS生成。这在模型设计和系统执行方面都带来了重大挑战。首先,高质量的扩散模型在计算上非常密集。它们通常需要大量的参数数量,以及每帧需要多次迭代的去噪步骤。每一步都需要通过模型进行一次完整的前向传播,从而导致每帧产生大量的浮点运算(FLOPs)。其次,与离线生成流水线不同,LSD必须满足严格的每帧延迟约束。这些约束与现代GPU的架构方式根本相悖:它们优先考虑高吞吐量和大规模批处理执行,而非低延迟的单样本推理。挑战包括内核启动开销、在连续层之间重叠计算的机会有限,以及对内存传输延迟的敏感性增加,尤其是在多设备设置中。为了解决这些问题,Decart采用了一个三管齐下的优化策略:Hopper优化的超大内核:通过利用类似于MegaKernels的若干新兴技术,针对NVIDIA Hopper GPU架构优化了模型执行,以在小批量尺寸限制下最小化每层模型的延迟。进一步在这些内核中集成了GPU-GPU通信,以保证设备之间无缝通信,并通过计算操作进行掩蔽。架构感知剪枝:将模型架构与系统级优化紧密集成,可以在每次模型执行时减少所需的FLOPs数量,同时通过高级技术更好地利用张量核心。这些技术将参数大小调整为特定GPU常量,并使用专用硬件支持进一步挖掘模型权重中的稀疏性。这些剪枝方法旨在根据底层GPU架构调整模型架构,以最大化GPU的利用率,同时通过微调模型使其对移除各种参数具有鲁棒性,从而减少整体所需的FLOPs数量。快捷蒸馏:为了减少生成所需的扩散步骤数量,应用了快捷蒸馏方法,训练较小的模型以匹配较大教师模型的去噪轨迹。该方法显著减少了每帧所需的模型评估次数,同时保持了输出质量与时间一致性。更重要的是,它避免了在长序列中引入新的伪影或漂移。这些技术共同使LSD能够将高保真视频扩散的延迟从每个片段几秒降低到每帧不到40毫秒,从而实现真正实时、可交互的生成。
文章原文