香港城市大学等华人团队联合发布了图像-视频生成模型Pusa V1.0,该模型在基础大模型Wan2.1-T2V-14B上引入向量时间步适应(VTA)机制,仅使用3860段视频、约500美元成本进行微调,便在图像转视频(I2V)任务上超越了现有模型,达到SOTA水平。Pusa V1.0支持图像到视频、视频扩展、文字转视频等多种零样本任务,其VTA机制通过为每帧引入独立时间编码,实现了更自然、连贯的视频生成。该模型已开源,为视频生成领域提供了轻量化、多功能的范例。
🌟 Pusa V1.0模型创新性地引入了向量时间步适应(VTA)机制,在不破坏基础模型架构的前提下,实现了对时间步长的矢量化处理。与传统标量时间步长模型不同,VTA允许为视频中的每一帧引入独立的时间编码,从而实现对帧降噪进度和时间位置的精细控制,让视频生成过程更符合现实中帧的时序演化规律,有效提升了视频的连贯性和自然度。
🚀 尽管训练成本极低,仅耗费约500美元和3860段视频数据,Pusa V1.0在图像转视频(I2V)任务上取得了当前最优(SOTA)的性能,超越了同样基于Wan-I2V-14B微调的模型。这得益于VTA机制能够更有效地学习时间信息,同时保留了基础模型的预训练先验知识,减少了对大量数据的依赖,为低成本、高性能的AI模型训练提供了新的思路。
💡 Pusa V1.0展现了强大的零样本任务能力,能够以“开箱即用”的方式支持多种视频生成任务,包括图像到视频、视频扩展、文字转视频以及视频转场等。例如,仅需提供起始帧和结束帧,模型即可生成中间帧;或通过文本指令改变视频内容。这种灵活性和泛化能力极大地扩展了AI在视频创作领域的应用潜力。
🔧 该模型在训练过程中采用了帧感知的流匹配(FAFM)目标函数,并利用LORA结合DeepSpeed Zero2技术,在8张80GB显存的GPU上完成了微调。与破坏基础模型先验的微调方法相比,Pusa V1.0所需参数更新量减少了10倍以上,表明其训练更具效率和针对性,仅关注与时间相关的模块,保留了基础模型的强大能力,为后续的可扩展和多功能视频生成奠定了基础。
关注前沿科技 2025-07-17 14:01 北京
华人团队出品,已开源!

henry 发自 凹非寺量子位 | 公众号 QbitAI
你可能听说过OpenAI的Sora,用数百万视频、千万美元训练出的AI视频模型。但你能想象,有团队只用3860段视频、不到500美元成本,也能在关键任务上做到SOTA?比如这个图生视频:攀岩者在小行星攀岩,人体运动与太空光影完美仿真。视频扩展也是不在话下,给定起始帧或结束帧,让存钱罐小猪直接在大溪地的冲浪圣地上冲浪。这些精美的视频就来自于香港城市大学等团队最新联合发布的图像-视频生成模型——Pusa V1.0(菩萨1.0)。Pusa V1.0在基础大模型Wan2.1-T2V-14B的基础上引入向量时间步适应(vectorized timestep adaptation,VTA )机制,仅使用3860对视频-文字数据、约500美元成本进行微调,就在图像转视频 (I2V) 超越了Wan-I2V-14B,实现了SOTA,并解锁了诸多零样本任务能力。500美元实现SOTA如上文所说,Pusa V1.0从文本到视频(T2V)模型 Wan-T2V-14B 微调而来,用于图像到视频生成(I2V)。与其他会破坏基础模型架构的微调模型不同,Pusa采用VTA机制,从而实现最小、非破坏性的优化,将时间步长从标量扩大到矢量。它完全保留了基础模型的预训练先验,并实现了更有效的时间学习。全面的任务支持凭借其灵活的矢量化时间步适应策略,Pusa仅需10个推理步骤就能够执行多种视频生成任务。这些能力都是其“涌现属性”,能够以零样本方式(无需任何任务特定的训练)扩展到:图像到视频、开始-结束帧、视频扩展、文字转视频、视频转场等任务中。例如,以9个起始帧和12个结束帧作为条件,让模型生成中间的60帧画面。或者,直接输入文字,让模型把一辆汽车从金色变成白色。VTA如何让视频生成更自然?由于视频本质上是按固定帧率(如电影的每秒 24 帧)连续播放的一系列图片。在视频扩散模型(VDM)中,模型通常将整段视频拆解为逐帧图像进行建模。在传统的做法中,所有帧共享一个标量时间步长变量,模型对所有帧同步进行相同程度的降噪。不过,这就意味着让所有帧在降噪过程中步调一致,同时演化。由此,后面的画面无法获得前一帧画面的约束信息,从而使I2V(image-to-video)的效果过于僵硬。此外,由于图像输入不同于模糊抽象的文本输入,其作为刚性条件,对“视频生成起点”限制非常严格。模型在保持原图约束的同时,必须自己“猜”这个图像之后会怎么动。因此,为了生成连贯动态的视频,不同帧之间应该以不同速度/时间状态进行演化,从而让后续帧的去噪过程能尽可能的收到前一帧先验的控制。由此,研究提出VTA,为每一帧引入一个独立的时间编码。这样就允许模型能对每帧的去噪进度和时间位置进行精细控制,从而更好地模拟现实中帧的时序演化,使生成的视频在动态表现上更连贯、自然。具体而言,VTA通过帧感知的流匹配(Frame-Aware Flow Matching, FAFM)使每一帧能够独立演化,同时赋予模型对同步与异步时间结构的建模能力。最终,它通过向DiT注入自定义的时间嵌入,实现了高效、统一、非破坏性的多任务视频生成。在训练层面,Pusa 采用了帧感知的流匹配(FAFM)目标函数,模拟每一帧在时间轴上独立演化的理想速度。此外,为了始终保持起始图像作为条件约束,其对应的时间步分量在整个推理过程中都被设置为零。在模型结构上,VTA 则将这一目标通过向量时间步嵌入落实到 DiT 框架中,实现推理阶段的帧级动态控制。在推理时,Pusa 允许为每一帧指定不同时间步长,从而实现起始帧固定、末帧补齐、关键帧约束等多种时间控制策略。这种“从目标到机制”的结合,是 Pusa 不仅生成自然,更易泛化的关键。Pusa V1.0使用LORA+DeepSpeed Zero2在8张80GB内存的GPU上进行微调。实验表明,Pusa V1.0 超越了同样基于Wan-I2V-14B微调而来的Wan-I2V,实现了SOTA。与此同时,Pusa V1.0所需的参数更新数比Wan-I2V少10倍以上,这表明Pusa仅仅关注与时间相关的模块,从而保留了基础模型的先验知识。与之相对的,Wan-12V则表现出对基础模型先验知识的破坏。可以说,Pusa V1.0以极致轻量化的训练成本为之后的视频生成建立了可扩展且多功能的范例。模型目前已开源,详情可参考文末链接。One More Thing根据Pusa的介绍文档,模型的名称源于中文中的菩萨(“千手观音”)。观音菩萨多手的图案象征着她无边的慈悲和无量的能力。团队采用这个名称是为了表明模型使用多个时间步长变量来实现丰富的视频生成功能。模型更小,意味着它能更快地进入每个人的电脑,而只有当技术真正服务于每一个创作者的时候,它才成为了真正的“菩萨”。参考链接:[1]项目主页:https://yaofang-liu.github.io/Pusa_Web/[2]huggingface:https://huggingface.co/RaphaelLiu/PusaV1[3]arxiv:https://arxiv.org/abs/2410.03160一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法!