DeepTech深科技 04月09日 18:56
AI一次性生成63秒《猫和老鼠》动画片,采用测试时训练层,无编辑无拼接剧情100%全新
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

这项研究展示了利用AI生成长达63秒的《猫和老鼠》动画的潜力。研究人员通过在预训练的Transformer模型中加入测试时训练层并进行微调,实现了动画视频的直接生成,无需编辑或后处理。该技术基于文本分镜脚本,能够生成多场景、长镜头且充满动态动作的动画。这项突破为AI在动画创作领域的应用提供了新的可能性,也引发了对未来AI生成动画连续剧的遐想。

🐱 研究团队通过在预训练的Transformer模型中加入测试时训练层(TTT)并进行微调,成功生成了长达63秒的《猫和老鼠》动画视频,实现了从文本分镜脚本到动画的直接转化。

🎬 该研究采用测试时训练层,解决了Transformer模型在处理长视频时效率低下的问题,使其能够根据文本分镜脚本生成一分钟的视频。研究人员将自注意力层限制在3秒的片段内,并使用全局方式处理整个输入序列。

⚙️ 为了提高计算效率,研究人员利用英伟达Hopper GPU架构的分布式共享内存特性,实现了流式多处理器间的全局归约操作,显著提升了TTT-MLP的执行效率。他们还设计了张量并行机制,将大型多层感知器层分片,跨多个GPU的高带宽存储器进行训练。

DeepTech深科技 2025-04-09 16:45 北京

AI 也能生成逼真的《猫和老鼠》动画片了!长度可以达到 63 秒,剧情也可以重新生成。




AI 也能生成逼真的《猫和老鼠》动画片了!长度可以达到 63 秒,剧情也可以重新生成。

(来源:资料图) 


当地时间 月 日,来自英伟达、美国斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校、得克萨斯大学奥斯汀分校的研究人员,基于测试时训练(TTTTest-Time Training)生成了多个《猫和老鼠》的动画视频。 


他们在预训练的 Transformer 模型中添加了测试时训练层并对其进行微调,借此生成了具有强时间一致性的《猫和老鼠》一分钟动画片。 


研究人员表示,每个视频都是由模型一次性直接生成的,没有经过编辑、拼接或后处理,每个故事也都是全新创作的。 


第一个视频讲了汤姆和杰瑞争抢奶酪的故事。


视频

 详细剧情为:杰瑞在整洁的厨房里开心地吃着奶酪,直到汤姆调皮地把它拿走并戏弄他。恼怒之下,杰瑞收拾好自己的东西,拖着一个小行李箱离开了家。后来,汤姆注意到杰瑞不在,感到很难过,便顺着杰瑞的小脚印一路跟到了美国旧金山。杰瑞沮丧地坐在一条小巷里,汤姆找到了他,温柔地递上奶酪以表歉意。杰瑞原谅了汤姆,接受了奶酪,两人一起回家,他们的友谊恢复如初。(来源:论文页面)

第二个视频讲了杰瑞拔掉汤姆的电脑线的故事。


视频 详细剧情为:在美国纽约一个阳光明媚的早晨,汤姆提着公文包走进纽约世贸中心的办公室。他刚坐下,电脑突然黑屏——原来淘气的杰瑞咬断了电线。一场追逐战随即展开,最终汤姆撞上墙壁,杰瑞则溜回了鼠洞。不甘心的汤姆猛地撞开会议室门,却意外打断了斗牛犬斯派克主持的会议。怒气冲冲的斯派克将他轰了出去。躲在温馨鼠洞里的杰瑞望着这场闹剧,笑得乐不可支。(来源:论文页面)


第三个视频讲了汤姆和杰瑞争抢苹果派的故事。


视频 详细剧情为:汤姆正在厨房的桌子上开心地吃着苹果派。杰瑞则一脸渴望地看着,恨不得自己也能吃到。杰瑞走出屋子的前门,按响了门铃。汤姆过来开门时,杰瑞绕到后面跑进了厨房。杰瑞偷走了汤姆的苹果派。汤姆追赶杰瑞时,杰瑞抱着苹果派跑向他的老鼠洞。就在汤姆即将抓住杰瑞时,杰瑞钻进了老鼠洞,而汤姆则撞到了墙上。(来源:论文页面)


第四个视频讲了汤姆和杰瑞在海底探险的故事。


视频 详细剧情为:在一次水下探险中,杰瑞找到了一张藏宝图,并在躲避汤姆的追逐中穿越珊瑚礁和海藻林寻找宝藏。杰瑞在一艘沉船中欣喜地发现了宝藏,正沉浸在喜悦之中,而汤姆的追捕却让他陷入了一条饥饿的鲨鱼带来的威胁之中。(来源:论文页面)


第五个视频讲了汤姆和杰瑞参加嘉年华的故事。


视频 详细剧情为:汤姆和杰瑞来到一个热闹的嘉年华。汤姆兴致勃勃地尝试投球游戏,却屡屡失手,引得杰瑞哈哈大笑。懊恼的汤姆较起劲来,但无论怎么努力都打不中罐头。杰瑞自信满满地上前一试,轻松击倒罐头,赢得了亮闪闪的金奖杯。杰瑞开心地庆祝胜利,留下目瞪口呆的汤姆。最后,当两人一起离开嘉年华时,杰瑞骄傲地抱着战利品,汤姆则嫉妒又气恼地跟在后面嘟囔着。(来源:论文页面)


那么,上述视频到底是怎么生成的?研究人员表示,如今的

 Transformer 模型在生成一分钟视频方面仍然面临挑战,因为自注意力层在处理长上下文时效率低下。诸如 Mamba 层之类的替代方案在处理复杂的多场景故事时表现不佳,因为它们的隐藏状态表现力较弱。


为此,他们使用了测试时训练层,其隐藏状态本身可以是神经网络,从而具备更强的表达能力。当在预训练的

 Transformer 中加入测试时训练层,使其能够根据文本分镜脚本生成一分钟的视频。


研究中,他们从一个预训练的扩散

 TransformerCogVideo-X 5B)开始,原本其只能以 16 帧每秒的速度生成 秒的短片段,或以 帧每秒的速度生成 秒的短片段。


但是,研究人员添加了从头初始化的测试时训练层,并对该模型进行微调,以便根据文本分镜脚本生成一分钟的视频。


他们将自注意力层限制在

 秒的片段内,以便将研究成本保持在可控范围内。整个训练过程运行在 256 个英伟达 H100 上,相当于消耗了 50 小时的训练时长。


为了快速进行迭代,研究人员基于约

 小时的《猫和老鼠》动画片,并辅以人工标注的分镜脚本,整理了一个文本到视频的数据集。


作为概念验证,本次研究中的数据集侧重于复杂、多场景、长镜头且充满动态动作的叙事。而对于视觉和物理真实感方面,此前人们已经取得显著进展,所以本次研究未作重点强调。


(来源:资料图)


从宏观层面来看,本次方法只是在预训练的扩散

 TransformerDiffusion Transformer)上添加了测试时训练层,并在带有文本注释的长视频上进行微调。


他们采用了预先添加测试时训练层、然后再进行微调的方法,这种方法原则上适用于任何主干架构。


研究中,他们选择扩散

 Transformer 作为初步演示,因为它是视频生成中最流行的架构。由于在视频上预训练扩散 Transformer 的成本过高,所以研究人员从 CogVideo-X 5B 的预训练检查点开始。


他们将视频设计为包含多个场景,

每个场景包含一个或多个 秒的片段,并采用 秒片段作为文本与视频配对的最小单位,之所以这样做的原因有三个:


第一,原始预训练的

 CogVideo-X 的最大生成长度为 秒。第二,在《猫和老鼠》的剧集中,大多数场景的时长至少为 秒。第三,以 秒为一段构建多阶段数据集最为方便。


在推理阶段,研究人员按照以下三种格式中的任何一种,以详细程度递增的顺序来编写长视频的文本提示。


• 格式 

1:用 5-8 句话简短概述情节。


• 格式 2:用大约 20 句话详细描述情节,每句话大致对应 秒的片段。


• 格式 3:分镜脚本。每一个 秒钟的片段都由一段 到 句话来描述,内容包含背景颜色和镜头移动等细节。一个或多个段落组成的脚本组,会被严格地界定为属于某些场景,并且要使用关键词<场景开始>场景结束 > 


在微调和推理中,文本分词器的实际输入始终采用格式

 3,格式之间的转换由 Claude 3.7 Sonnet 按 12的顺序执行。


为了生成时间较长的视频,研究人员针对每个

 秒的片段都独立使用相同的程序。


具体而言,给定一个包含

 段落的格式 的分镜脚本,首先生成 个序列片段,每个片段都包含从相应段落提取的文本标记以及后续的视频标记。


然后,将所有

 个序列片段连接在一起,从而形成输入序列,这时序列中包含交错排列的文本 tokens 和视频 tokens


对于

 CogVideo-X 来说,它采用自注意力层来针对每段最长 秒的视频进行全局序列处理。但是,面对长视频时,其所采用的全局注意力机制会显著降低效率。


为了避免增加自注意力层的上下文长度,研究人员将其处理范围限定在每个

 秒片段内,使各 个序列片段能够独立进行注意力计算。


由于测试时训练层能够高效地处理长上下文序列,因此他们采用全局方式来处理整个输入序列。


遵循大语言模型的标准做法,研究人员将改进架构的上下文长度分为五个阶段,并将其扩展至一分钟。


具体来说,他们先在《猫和老鼠》的

 秒片段上针对整个预训练模型进行微调。


在此阶段,新的参数特别是测试时训练层和门控机制中的的参数,会被赋予更高的学习率。


接下来,研究人员分别对

 秒、18 秒、30 秒以及最终的 63 秒的视频进行微调。


为了避免模型在预训练过程中遗忘过多的世界知识,研究人员仅对测试时训练层、门控层和自注意力层进行微调,且在这四个阶段中使用较低的学习率。


在原始视频的选取上,他们选择了从

 1940 年至 1948 年间发行的 81 集《猫和老鼠》,每集时长约 分钟,所有集数加起来时长约 小时。


然后,研究人员在原始视频上运行一个视频超分辨率模型,从而为数据集生成视觉效果更强的视频,这些视频的分辨率均为

 720×480


接着,他们让人工标注员将每个片段分解为场景,然后从每个场景中提取

 秒长的片段。


接下来,研究人员让人工标注员为每个

 秒的片段撰写一段详细的描述,然后直接针对这些片段进行微调。


为了创建数据,研究人员将连续的

 秒片段拼接成 秒、18 秒、30 秒和 63 秒的视频,并附上相应的文本注释,所有训练视频的标注均采用上文的格式 3


(来源:资料图)


对于

 GPU 而言,要想高效地实现测试训练层-多层感知器(TTT-MLPTest-Time Training-Multi-Layer Perceptron),就需要进行特殊设计,以便利用其内存层次结构。


英伟达 GPU 架构中的核心计算单元是流式多处理器(SMsStreaming Multiprocessors),其功能类比于 CPU 中的单个核心。


GPU 

上的所有流式多处理器共享一个相对较慢但容量较大的全局内存(即 HBMHigh Bandwidth Memory),然后每个流式多处理器都有一个快速但容量较小的片上内存(即 SMEMShared Memory)。


GPU 

上 SMEM 与 HBM 之间的频繁数据传输会显著降低整体效率。而 Mamba 和自注意力层通过利用内核融合技术,可以减少这类数据的传输。


其核心思想是将输入和初始状态加载到每个

 SMEM 中,完全在片上进行计算,并且只将最终输出写回 HBM


然而,

TTT-MLP 的隐藏状态即双层 MLP 函数 的权重矩阵 W(1) 和 W(2),由于体积过大无法存储于单个流式多处理器的共享内存中。


为了减少每个流式多处理器所需的内存,研究人员使用张量并行机制,将

 W(1) 和 W(2) 在流式多处理器之间进行分片。


(来源:资料图)


由于大型多层感知器层可以被分片并跨多个

 GPU 的高带宽存储器上进行训练,因此研究人员将同样的思路用于多个流式多处理器的共享内存中,将每个流式多处理器视为一个 GPU 的类比。


研究人员利用英伟达

 Hopper GPU 架构的分布式共享内存特性,实现了流式多处理器间的全局归约操作,进而显著提升了效率。


作为一种通用原则,如果一个模型架构

 f  可以通过标准张量并行机制在 GPU 之间进行分片,那么当 f  用作隐藏状态时,同样的分片策略也可以用于流式多处理器之间。


(来源:资料图) 


不过,本次研究的 TTT-MLP 内核受限于寄存器溢出和异步指令的次优排序。未来,通过降低寄存器压力以及开发编译器感知更强的异步操作方案,其执行效率或能得到进一步提升。总的来说,本次方法有望用于生成更长、更复杂视频,也许下一代儿童将能看上由 AI 生成的动画连续剧?目前看来,这一设想并非没有实现的可能。


参考资料:

https://test-time-training.github.io/video-dit/

https://x.com/arankomatsuzaki/status/1909336661743550555


运营/排版:何晨龙






01/ 浙大团队打造新型仿生神经元,可重构生成丰富脉冲发放行为,有望实现类脑计算高效部署

02科学家开发世界首例东亚特异性遗传模型,约12%东亚人群携带该遗传变异,助力治疗慢性髓性白血病

03/ 美国生物数据库禁止中国用户使用,业内人士:中国早有应对预案

04/ DeepMind预计AGI或在2030年来临,指出4种降低AI错误的方法,针对错位问题提出两道防线

05/ 科学家设计三维力自解耦触觉传感器,将数据采集流程“化繁为简”,可用于测量机器人力分布

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 动画生成 猫和老鼠 Transformer 测试时训练
相关文章