500美元刷新SOTA！训练成本砍到1/200，华人团队重构视频生成范式

关注前沿科技 2025-07-17 14:01 北京

华人团队出品，已开源！

henry 发自凹非寺量子位 | 公众号 QbitAI

你可能听说过OpenAI的Sora，用数百万视频、千万美元训练出的AI视频模型。

但你能想象，有团队只用3860段视频、不到500美元成本，也能在关键任务上做到SOTA？

比如这个图生视频：攀岩者在小行星攀岩，人体运动与太空光影完美仿真。

视频扩展也是不在话下，给定起始帧或结束帧，让存钱罐小猪直接在大溪地的冲浪圣地上冲浪。

这些精美的视频就来自于香港城市大学等团队最新联合发布的图像-视频生成模型——Pusa V1.0（菩萨1.0）。

Pusa V1.0在基础大模型Wan2.1-T2V-14B的基础上引入向量时间步适应（vectorized timestep adaptation，VTA ）机制，仅使用3860对视频-文字数据、约500美元成本进行微调，就在图像转视频 (I2V) 超越了Wan-I2V-14B，实现了SOTA，并解锁了诸多零样本任务能力。

500美元实现SOTA如上文所说，Pusa V1.0从文本到视频（T2V）模型 Wan-T2V-14B 微调而来，用于图像到视频生成（I2V）。

与其他会破坏基础模型架构的微调模型不同，Pusa采用VTA机制，从而实现最小、非破坏性的优化，将时间步长从标量扩大到矢量。它完全保留了基础模型的预训练先验，并实现了更有效的时间学习。

全面的任务支持凭借其灵活的矢量化时间步适应策略，Pusa仅需10个推理步骤就能够执行多种视频生成任务。

这些能力都是其“涌现属性”，能够以零样本方式（无需任何任务特定的训练）扩展到：图像到视频、开始-结束帧、视频扩展、文字转视频、视频转场等任务中。

例如，以9个起始帧和12个结束帧作为条件，让模型生成中间的60帧画面。

或者，直接输入文字，让模型把一辆汽车从金色变成白色。

VTA如何让视频生成更自然？由于视频本质上是按固定帧率（如电影的每秒 24 帧）连续播放的一系列图片。在视频扩散模型（VDM）中，模型通常将整段视频拆解为逐帧图像进行建模。

在传统的做法中，所有帧共享一个标量时间步长变量，模型对所有帧同步进行相同程度的降噪。不过，这就意味着让所有帧在降噪过程中步调一致，同时演化。

由此，后面的画面无法获得前一帧画面的约束信息，从而使I2V（image-to-video）的效果过于僵硬。

此外，由于图像输入不同于模糊抽象的文本输入，其作为刚性条件，对“视频生成起点”限制非常严格。模型在保持原图约束的同时，必须自己“猜”这个图像之后会怎么动。

因此，为了生成连贯动态的视频，不同帧之间应该以不同速度/时间状态进行演化，从而让后续帧的去噪过程能尽可能的收到前一帧先验的控制。

由此，研究提出VTA，为每一帧引入一个独立的时间编码。这样就允许模型能对每帧的去噪进度和时间位置进行精细控制，从而更好地模拟现实中帧的时序演化，使生成的视频在动态表现上更连贯、自然。

具体而言，VTA通过帧感知的流匹配（Frame-Aware Flow Matching, FAFM）使每一帧能够独立演化，同时赋予模型对同步与异步时间结构的建模能力。最终，它通过向DiT注入自定义的时间嵌入，实现了高效、统一、非破坏性的多任务视频生成。

在训练层面，Pusa 采用了帧感知的流匹配（FAFM）目标函数，模拟每一帧在时间轴上独立演化的理想速度。此外，为了始终保持起始图像作为条件约束，其对应的时间步分量在整个推理过程中都被设置为零。

在模型结构上，VTA 则将这一目标通过向量时间步嵌入落实到 DiT 框架中，实现推理阶段的帧级动态控制。

在推理时，Pusa 允许为每一帧指定不同时间步长，从而实现起始帧固定、末帧补齐、关键帧约束等多种时间控制策略。这种“从目标到机制”的结合，是 Pusa 不仅生成自然，更易泛化的关键。

Pusa V1.0使用LORA＋DeepSpeed Zero2在8张80GB内存的GPU上进行微调。实验表明，Pusa V1.0 超越了同样基于Wan-I2V-14B微调而来的Wan-I2V，实现了SOTA。

与此同时，Pusa V1.0所需的参数更新数比Wan-I2V少10倍以上，这表明Pusa仅仅关注与时间相关的模块，从而保留了基础模型的先验知识。与之相对的，Wan-12V则表现出对基础模型先验知识的破坏。

可以说，Pusa V1.0以极致轻量化的训练成本为之后的视频生成建立了可扩展且多功能的范例。

模型目前已开源，详情可参考文末链接。

One More Thing根据Pusa的介绍文档，模型的名称源于中文中的菩萨（“千手观音”）。

观音菩萨多手的图案象征着她无边的慈悲和无量的能力。

团队采用这个名称是为了表明模型使用多个时间步长变量来实现丰富的视频生成功能。

模型更小，意味着它能更快地进入每个人的电脑，而只有当技术真正服务于每一个创作者的时候，它才成为了真正的“菩萨”。

参考链接：[1]项目主页：https://yaofang-liu.github.io/Pusa_Web/[2]huggingface:https://huggingface.co/RaphaelLiu/PusaV1[3]arxiv:https://arxiv.org/abs/2410.03160

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

henry 发自凹非寺量子位 | 公众号 QbitAI

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

henry 发自 凹非寺量子位 | 公众号 QbitAI

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

henry 发自凹非寺量子位 | 公众号 QbitAI