CV君 2025-07-22 21:36 江苏
本文介绍的论文是《TokensGen: Harnessing Condensed Tokens for Long Video Generation》,该研究为攻克AI视频生成领域的“圣杯”级难题——生成时序连贯、内容一致的长视频——提出了一个名为TokensGen的、极具创新性的两阶段框架。当前基于扩散模型的视频生成器虽然能产出惊艳的短片,但一旦试图延长视频,就会立刻面临内存爆炸和“前后不搭”的窘境。
TokensGen的核心思想是“化繁为简”,它不再直接生成像素,而是先生成一种高度浓缩、蕴含丰富语义的“视频Token”,然后用这些Token来指导短视频的生成与衔接。这种巧妙的“先规划、后执行”的策略,成功地解决了长视频生成的内存瓶颈和一致性两大痛点,为AI在故事创作、电影制作等领域的应用开辟了新的道路。
近年来,以Sora、Kling等为代表的AI视频生成模型取得了现象级的突破,它们能够根据文本描述生成以假乱真的高清短视频。这些模型大多基于扩散模型(Diffusion Model),通过一个“去噪”的过程,从随机噪声中逐步生成清晰的视频帧。
然而,这些模型在生成长视频(例如,超过一分钟)时,几乎都会遇到两个难以逾越的障碍:
内存瓶颈:扩散模型需要同时处理视频的所有帧,视频越长,需要消耗的计算资源(特别是GPU显存)就呈指数级增长,很快就会超出硬件极限。长期不一致性:即便勉强生成了长视频,也很难保证内容和时序上的一致性。例如,一个角色可能在前一个镜头里穿着红衣服,下一个镜头里就莫名其妙地变成了蓝色;或者一个物体的运动轨迹在前后两个片段中完全衔接不上。简单地将短视频生成模型直接扩展到长视频,这条路似乎走不通。TokensGen正是为了解决这一根本性矛盾而提出的全新范式。
主要研究内容与方法TokensGen的巧妙之处在于,它将长视频生成这个复杂任务分解成了三个更容易控制的核心子任务:(1) 单个短视频片段的语义内容控制,(2) 整个长视频的长期一致性规划,以及 (3) 短视频片段之间的平滑过渡。为此,它设计了一个包含两个核心阶段和三大关键模块的框架。
这个阶段的目标是训练一个能够理解和生成高质量短视频的“工匠”模型。
视频分词器 (Video Tokenizer) :这是TokensGen的第一个核心创新。研究者训练了一个编码器,它可以将一个短视频片段(例如,几秒钟的视频)“浓缩”成几个语义丰富的视频Token。这些Token就像是这个短片的“内容摘要”或“剧本大纲”,它们包含了这个片段的核心语义信息(比如“一只猫在沙发上跳跃”),但抛弃了像素级别的冗余细节。To2V (Token-to-Video) 模型:这是一个由文本和上述“视频Token”共同引导的短视频扩散模型。它的任务是“解压”,即根据给定的文本描述和视频Token,生成一个内容准确、画面精美的短视频片段。通过这个阶段,模型学会了如何在高度浓缩的Token和高质量的短视频之间进行双向转换。
2. 第二阶段:规划“剧本”并生成长视频这个阶段负责长视频的“宏观调控”。
T2To (Text-to-Token) 模型:这是第二个核心创新。它是一个视频Token扩散Transformer。它的输入是用户关于整个长视频的文本描述(例如,“一只猫在客厅里玩耍,然后跳上窗台看风景”),它的输出是一整套代表了未来所有短视频片段的视频Token序列。因为这个Transformer是一次性生成所有Token的,所以它能够从全局视角进行规划,确保整个Token序列(即整个长视频的“剧本”)在内容和逻辑上是长期一致的。3. 推理阶段:无缝衔接有了“剧本”(Token序列)和“工匠”(To2V模型),生成长视频的过程就变得清晰了:
自适应FIFO-Diffusion策略:在推理时,系统会逐一将T2To生成的视频Token送入To2V模型,生成一个个短视频片段。为了让片段之间的过渡天衣无缝,研究者提出了一种自适应的先进先出扩散(FIFO-Diffusion)策略。该策略在生成当前片段时,会参考上一个片段的结尾部分,确保两个片段在内容和动态上能够平滑地衔接起来,从而有效减少边界处的跳跃感和伪影。实验设计与结果研究者们在多个公开数据集上对TokensGen进行了评估,并与现有的长视频生成方法进行了对比。
定量结果
定性结果
消融研究
实验结果表明,TokensGen生成的长视频在长期时间一致性和内容连贯性方面,均显著优于其他方法。视频中的物体和场景能够保持稳定,运动也更加流畅自然。
结论与未来工作TokensGen的提出,为长视频生成领域提供了一个极具前景的、可扩展的解决方案。它通过将视频内容“浓缩”为语义Token,巧妙地绕开了直接生成长视频所面临的内存和一致性两大瓶颈。这种“先规划Token剧本,再生成视频片段”的模块化思想,不仅有效,而且优雅。
这项工作为AI在故事创作、电影制作、沉浸式模拟等需要长时程、连贯叙事的领域的应用,打开了新的想象空间。未来的研究可以进一步探索如何生成更长、更复杂、交互性更强的视频Token序列,以及如何让用户对生成的视频Token进行更精细的编辑和控制。
了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net