DeepTech深科技 2025-04-09 16:45 北京
AI 也能生成逼真的《猫和老鼠》动画片了!长度可以达到 63 秒,剧情也可以重新生成。
AI 也能生成逼真的《猫和老鼠》动画片了!长度可以达到 63 秒,剧情也可以重新生成。
(来源:资料图)
当地时间 4 月 8 日,来自英伟达、美国斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校、得克萨斯大学奥斯汀分校的研究人员,基于测试时训练(TTT,Test-Time Training)生成了多个《猫和老鼠》的动画视频。
他们在预训练的 Transformer 模型中添加了测试时训练层并对其进行微调,借此生成了具有强时间一致性的《猫和老鼠》一分钟动画片。
研究人员表示,每个视频都是由模型一次性直接生成的,没有经过编辑、拼接或后处理,每个故事也都是全新创作的。
第一个视频讲了汤姆和杰瑞争抢奶酪的故事。
视频
第二个视频讲了杰瑞拔掉汤姆的电脑线的故事。
视频 | 详细剧情为:在美国纽约一个阳光明媚的早晨,汤姆提着公文包走进纽约世贸中心的办公室。他刚坐下,电脑突然黑屏——原来淘气的杰瑞咬断了电线。一场追逐战随即展开,最终汤姆撞上墙壁,杰瑞则溜回了鼠洞。不甘心的汤姆猛地撞开会议室门,却意外打断了斗牛犬斯派克主持的会议。怒气冲冲的斯派克将他轰了出去。躲在温馨鼠洞里的杰瑞望着这场闹剧,笑得乐不可支。(来源:论文页面)
第三个视频讲了汤姆和杰瑞争抢苹果派的故事。
视频 | 详细剧情为:汤姆正在厨房的桌子上开心地吃着苹果派。杰瑞则一脸渴望地看着,恨不得自己也能吃到。杰瑞走出屋子的前门,按响了门铃。汤姆过来开门时,杰瑞绕到后面跑进了厨房。杰瑞偷走了汤姆的苹果派。汤姆追赶杰瑞时,杰瑞抱着苹果派跑向他的老鼠洞。就在汤姆即将抓住杰瑞时,杰瑞钻进了老鼠洞,而汤姆则撞到了墙上。(来源:论文页面)
第四个视频讲了汤姆和杰瑞在海底探险的故事。
视频 | 详细剧情为:在一次水下探险中,杰瑞找到了一张藏宝图,并在躲避汤姆的追逐中穿越珊瑚礁和海藻林寻找宝藏。杰瑞在一艘沉船中欣喜地发现了宝藏,正沉浸在喜悦之中,而汤姆的追捕却让他陷入了一条饥饿的鲨鱼带来的威胁之中。(来源:论文页面)
第五个视频讲了汤姆和杰瑞参加嘉年华的故事。
视频 | 详细剧情为:汤姆和杰瑞来到一个热闹的嘉年华。汤姆兴致勃勃地尝试投球游戏,却屡屡失手,引得杰瑞哈哈大笑。懊恼的汤姆较起劲来,但无论怎么努力都打不中罐头。杰瑞自信满满地上前一试,轻松击倒罐头,赢得了亮闪闪的金奖杯。杰瑞开心地庆祝胜利,留下目瞪口呆的汤姆。最后,当两人一起离开嘉年华时,杰瑞骄傲地抱着战利品,汤姆则嫉妒又气恼地跟在后面嘟囔着。(来源:论文页面)
那么,上述视频到底是怎么生成的?研究人员表示,如今的
为此,他们使用了测试时训练层,其隐藏状态本身可以是神经网络,从而具备更强的表达能力。当在预训练的
研究中,他们从一个预训练的扩散
但是,研究人员添加了从头初始化的测试时训练层,并对该模型进行微调,以便根据文本分镜脚本生成一分钟的视频。
他们将自注意力层限制在
为了快速进行迭代,研究人员基于约
作为概念验证,本次研究中的数据集侧重于复杂、多场景、长镜头且充满动态动作的叙事。而对于视觉和物理真实感方面,此前人们已经取得显著进展,所以本次研究未作重点强调。
(来源:资料图)
从宏观层面来看,本次方法只是在预训练的扩散
他们采用了预先添加测试时训练层、然后再进行微调的方法,这种方法原则上适用于任何主干架构。
研究中,他们选择扩散
他们将视频设计为包含多个场景,
第一,原始预训练的
在推理阶段,研究人员按照以下三种格式中的任何一种,以详细程度递增的顺序来编写长视频的文本提示。
• 格式
• 格式 2:用大约 20 句话详细描述情节,每句话大致对应 3 秒的片段。
• 格式 3:分镜脚本。每一个 3 秒钟的片段都由一段 3 到 5 句话来描述,内容包含背景颜色和镜头移动等细节。一个或多个段落组成的脚本组,会被严格地界定为属于某些场景,并且要使用关键词“<场景开始>”和“< 场景结束 >”。
在微调和推理中,文本分词器的实际输入始终采用格式
为了生成时间较长的视频,研究人员针对每个
具体而言,给定一个包含
然后,将所有
对于
为了避免增加自注意力层的上下文长度,研究人员将其处理范围限定在每个
由于测试时训练层能够高效地处理长上下文序列,因此他们采用全局方式来处理整个输入序列。
遵循大语言模型的标准做法,研究人员将改进架构的上下文长度分为五个阶段,并将其扩展至一分钟。
具体来说,他们先在《猫和老鼠》的
在此阶段,新的参数特别是测试时训练层和门控机制中的的参数,会被赋予更高的学习率。
接下来,研究人员分别对
为了避免模型在预训练过程中遗忘过多的世界知识,研究人员仅对测试时训练层、门控层和自注意力层进行微调,且在这四个阶段中使用较低的学习率。
在原始视频的选取上,他们选择了从
然后,研究人员在原始视频上运行一个视频超分辨率模型,从而为数据集生成视觉效果更强的视频,这些视频的分辨率均为
接着,他们让人工标注员将每个片段分解为场景,然后从每个场景中提取
接下来,研究人员让人工标注员为每个
为了创建数据,研究人员将连续的
(来源:资料图)
对于
英伟达 GPU 架构中的核心计算单元是流式多处理器(SMs,Streaming Multiprocessors),其功能类比于 CPU 中的单个核心。
GPU
GPU
其核心思想是将输入和初始状态加载到每个
然而,
为了减少每个流式多处理器所需的内存,研究人员使用张量并行机制,将
(来源:资料图)
由于大型多层感知器层可以被分片并跨多个
研究人员利用
作为一种通用原则,如果一个模型架构
(来源:资料图)
不过,本次研究的 TTT-MLP 内核受限于寄存器溢出和异步指令的次优排序。未来,通过降低寄存器压力以及开发编译器感知更强的异步操作方案,其执行效率或能得到进一步提升。总的来说,本次方法有望用于生成更长、更复杂视频,也许下一代儿童将能看上由 AI 生成的动画连续剧?目前看来,这一设想并非没有实现的可能。
参考资料:
https://test-time-training.github.io/video-dit/
https://x.com/arankomatsuzaki/status/1909336661743550555
运营/排版:何晨龙