Hugging Face 03月20日
社区供稿 | 阶跃星辰 Step-Video-TI2V 图生视频模型开源,运动可控,动漫效果尤佳!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阶跃星辰开源了Step-Video-TI2V,一款基于30B参数的图生视频模型,支持生成540P分辨率、102帧、5秒的视频。该模型具备运动幅度可控和镜头运动可控两大特点,并具备一定的特效生成能力。Step-Video-TI2V通过引入图像条件提高一致性,并引入运动幅度控制,赋予用户更高的自由度。该模型已完成与华为昇腾计算平台的适配,并在魔乐社区上线。在VBench-I2V基准测试中,Step-Video-TI2V取得了state-of-the-art级别的表现。

🖼️ 引入图像条件:Step-Video-TI2V 采用了直接拼接图像向量和DiT第一帧向量的方式,提高生成的视频与原图的一致性。

🤸 运动幅度可控:通过AdaLN模块引入视频动态性打分信息,用户可以指定不同的运动级别(motion=2, 5, 10),控制视频的动态幅度。

🎥 多种运镜控制:Step-Video-TI2V 支持对多种运镜的理解,可以对生成视频中的镜头运动进行精准控制,生成大片级运镜效果。

🎬 动漫效果优异:Step-Video-TI2V 在动漫类任务上的效果尤为出色,适用于动画创作和短视频制作等场景。

📏 支持多尺寸生成:Step-Video-TI2V 支持多种尺寸图生视频,用户可以根据不同的创作需求和平台特性,自由选择图片尺寸。

拥抱开源的 2025-03-20 19:01 法国

分享来自阶跃星辰的社区供稿文章

在今年 2 月,阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型,为开源社区贡献了自己的多模态力量。

今天,我们再接再厉,继续开源图生视频模型——Step-Video-TI2V一款基于 30B 参数 Step-Video-T2V 训练的图生视频模型,支持生成 102 帧、5 秒、540P 分辨率的视频,具备运动幅度可控镜头运动可控两大核心特点,同时天生具备一定的特效生成能力。

和目前已有开源图生视频模型相比,Step-Video-TI2V 不仅在参数规模上对该领域的研究提供了更高的上限,其运动幅度可控能力,更是能够平衡图生视频生成结果的动态性和稳定性,为创作者提供更为灵活的选择。

与此同时,Step-Video-TI2V 已完成与华为昇腾计算平台的适配,并在魔乐社区(Modelers)上线,欢迎前往体验。

Torch 昇腾适配链接:

https://modelers.cn/models/StepFun/Step-Video-TI2V-NPU

MindIE 适配链接:

https://modelers.cn/models/MindIE/StepVideo-TI2V

两大技术亮点解析:Step-Video-TI2V 是如何炼成的

相比文生视频模型 Step-Video-T2V,此次开源的 Step-Video-TI2V 主要针对图生视频任务做了两大关键优化

第一,引入图像条件,提高一致性

为了让模型更好地理解输入的图片,我们没有采用传统的 cross-attention 方法,而是使用了更直接、更高效的方式,将该图像对应的向量表示和 DiT 第一帧对应的向量表示直接进行 channel 维度的拼接,这样生成的视频和原图才能更一致。

第二,引入运动幅度控制,赋予用户更高自由度

在训练过程中,Step-Video-TI2V 通过 AdaLN 模块引入视频动态性打分信息,特别训练模型学习了视频的动感程度。用户在生成时可以简单地指定不同的运动级别(motion = 2, 5, 10),精准控制视频的动态幅度,平衡视频的动态性、稳定性和一致性。

此外,在数据优化方面,对于主体动作镜头运动,我们进行了专项精准标注,使得 Step-Video-TI2V 在主体动态性运镜效果上更具优势。

在 VBench-I2V 基准测试中,Step-Video-TI2V 取得了 state-of-the-art 级别的表现,并验证了动态性打分对生成视频稳定性和一致性的控制能力。

核心特点

1、运动幅度可控:动态 & 稳定自由切换

Step-Video-TI2V 支持控制视频的“运动幅度(motion)”,平衡图生视频内容的运动性和稳定性。无论是静态稳定画面,还是高动态动作场景,都能满足创作者需求。

从左至右,运动幅度(motion)依次为:2 / 5 / 10 / 20,数值越大,动态性越强。

视频生成时推荐 2、5、10 等数值。

2、多种运镜控制

除了对镜头内主体运动的控制, Step-Video-TI2V 支持对多种运镜的理解,可以对生成视频中的镜头运动进行精准控制,生成大片级运镜效果。从基本的推拉摇移、升降,到各种复杂的电影级运镜效果都能驾驭。

3、动漫效果尤佳

Step-Video-TI2V 在动漫类任务上的效果尤其优异,非常贴合动画创作、短视频制作等应用场景。

4、支持多尺寸生成

Step-Video-TI2V 支持多种尺寸图生视频,无论是横屏的宽阔视野,竖屏的沉浸体验,还是方屏的经典复古,都能轻松驾驭。

用户可以根据不同的创作需求和平台特性,自由选择图片尺寸,无需担心画面变形或比例失调的问题。

欢迎体验

现在,Step-Video-TI2V 模型已正式开源!阶跃 AI 网页版和 App 端均已上线,欢迎立即体验!

👉 网页版直达:

输入网址 https://yuewen.cn/,点击左边的【阶跃视频】即可体验;或者直接进入阶跃视频 https://yuewen.cn/videos

👉 App 体验:

下载阶跃AI App,点击【视频创作】即可。

此外,Step-Video-TI2V 现在已初步具备一些特效生成能力,未来,我们还将通过 LoRA 等技术, 持续解锁模型的特效潜力,敬请期待更多惊喜!

模型及技术报告链接,可复制到浏览器查看:
Hugging Face:
https://hf.co/stepfun-ai/stepvideo-ti2v

GitHub:
https://github.com/stepfun-ai/Step-Video-TI2V

Github-ComfyUI:
https://github.com/stepfun-ai/ComfyUI-StepVideo

技术报告:

https://arxiv.org/abs/2503.11251

本文由 Hugging Face 中文社区内容共建项目提供,稿件由社区成员投稿,经授权发布于 Hugging Face 公众号。文章内容不代表官方立场,文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号: 



如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容,以及最新的开源 AI 项目发布,希望通过我们分享给更多 AI 从业者和开发者们,请通过下面的链接投稿与我们取得联系:

https://hf.link/tougao



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Step-Video-TI2V 图生视频 开源 AI
相关文章