开源不断 | 阶跃星辰 Step-Video-TI2V 图生视频模型开源，运动可控，动漫效果尤佳！

阶跃星辰 03月20日

开源不断 | 阶跃星辰 Step-Video-TI2V 图生视频模型开源，运动可控，动漫效果尤佳！

阶跃AI开源了Step-Video-TI2V，一款基于Step-Video-T2V的图生视频模型。该模型支持生成102帧、5秒、540P分辨率的视频，具备运动幅度可控和镜头运动可控两大核心特点。Step-Video-TI2V通过优化图像条件和引入运动幅度控制，提高了视频生成的一致性和用户自由度。它在VBench-I2V基准测试中表现出色，尤其在动漫效果上表现优异，并支持多种尺寸的视频生成。模型已在阶跃AI网页版和App端上线，用户可立即体验。

🖼️ 引入图像条件：Step-Video-TI2V 采用直接拼接图像向量的方式，确保生成的视频与原图的一致性，而非传统的cross-attention方法。

🤸 运动幅度可控：通过AdaLN模块引入视频动态性打分信息，用户可以控制视频的运动幅度（motion），在2、5、10等数值之间切换，平衡动态性、稳定性和一致性。

🎬 多种运镜控制：Step-Video-TI2V 支持对多种运镜的理解，可以精准控制镜头运动，生成推拉摇移、升降等电影级运镜效果。

✨ 动漫效果优异：模型在动漫类任务上的效果尤为出色，非常适合动画创作和短视频制作。

📐 支持多尺寸生成：Step-Video-TI2V 支持横屏、竖屏、方屏等多种尺寸的视频生成，满足不同创作需求。

原创拥抱开源的 2025-03-20 14:14 北京

阶跃AI 网页版和 App 均已上线，欢迎立即体验！

在今年 2 月，阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型，为开源社区贡献了自己的多模态力量。

今天，我们再接再厉，继续开源图生视频模型——Step-Video-TI2V，一款基于 30B 参数 Step-Video-T2V 训练的图生视频模型，支持生成 102 帧、5 秒、540P 分辨率的视频，具备运动幅度可控和镜头运动可控两大核心特点，同时天生具备一定的特效生成能力。

和目前已有开源图生视频模型相比，Step-Video-TI2V 不仅在参数规模上对该领域的研究提供了更高的上限，其运动幅度可控能力，更是能够平衡图生视频生成结果的动态性和稳定性，为创作者提供更为灵活的选择。

与此同时，Step-Video-TI2V 已完成与华为昇腾计算平台的适配，并在魔乐社区（Modelers）上线，欢迎前往体验。

Torch 昇腾适配链接：

https://modelers.cn/models/StepFun/Step-Video-TI2V-NPU

MindIE 适配链接：

https://modelers.cn/models/MindIE/StepVideo-TI2V

两大技术亮点解析：Step-Video-TI2V 是如何炼成的

相比文生视频模型 Step-Video-T2V，此次开源的 Step-Video-TI2V 主要针对图生视频任务做了两大关键优化：

第一，引入图像条件，提高一致性

为了让模型更好地理解输入的图片，我们没有采用传统的 cross-attention 方法，而是使用了更直接、更高效的方式，将该图像对应的向量表示和 DiT 第一帧对应的向量表示直接进行 channel 维度的拼接，这样生成的视频和原图才能更一致。

第二，引入运动幅度控制，赋予用户更高自由度

在训练过程中，Step-Video-TI2V 通过 AdaLN 模块引入视频动态性打分信息，特别训练模型学习了视频的动感程度。用户在生成时可以简单地指定不同的运动级别（motion = 2， 5， 10），精准控制视频的动态幅度，平衡视频的动态性、稳定性和一致性。

此外，在数据优化方面，对于主体动作和镜头运动，我们进行了专项精准标注，使得 Step-Video-TI2V 在主体动态性和运镜效果上更具优势。

在 VBench-I2V 基准测试中，Step-Video-TI2V 取得了 state-of-the-art 级别的表现，并验证了动态性打分对生成视频稳定性和一致性的控制能力。

核心特点

1、运动幅度可控：动态 & 稳定自由切换

Step-Video-TI2V 支持控制视频的“运动幅度（motion）”，平衡图生视频内容的运动性和稳定性。无论是静态稳定画面，还是高动态动作场景，都能满足创作者需求。

从左至右，运动幅度（motion）依次为：2 / 5 / 10 / 20，数值越大，动态性越强。

视频生成时推荐 2、5、10 等数值。

2、多种运镜控制

除了对镜头内主体运动的控制， Step-Video-TI2V 支持对多种运镜的理解，可以对生成视频中的镜头运动进行精准控制，生成大片级运镜效果。从基本的推拉摇移、升降，到各种复杂的电影级运镜效果都能驾驭。

3、动漫效果尤佳

Step-Video-TI2V 在动漫类任务上的效果尤其优异，非常贴合动画创作、短视频制作等应用场景。

4、支持多尺寸生成

Step-Video-TI2V 支持多种尺寸图生视频，无论是横屏的宽阔视野，竖屏的沉浸体验，还是方屏的经典复古，都能轻松驾驭。

用户可以根据不同的创作需求和平台特性，自由选择图片尺寸，无需担心画面变形或比例失调的问题。

欢迎体验

现在，Step-Video-TI2V 模型已正式开源！阶跃 AI 网页版和 App 端均已上线，欢迎立即体验！

👉 网页版直达：

输入网址 https://yuewen.cn/，点击左边的【阶跃视频】即可体验；或者直接进入阶跃视频 https://yuewen.cn/videos。

👉 App 体验：

下载阶跃AI App，点击【视频创作】即可。

此外，Step-Video-TI2V 现在已初步具备一些特效生成能力，未来，我们还将通过 LoRA 等技术，持续解锁模型的特效潜力，敬请期待更多惊喜！

模型及技术报告链接，可复制到浏览器查看：

GitHub：

https://github.com/stepfun-ai/Step-Video-TI2V

Github-ComfyUI：

https://github.com/stepfun-ai/ComfyUI-StepVideo

技术报告：

https://arxiv.org/abs/2503.11251

推荐阅读

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

阶跃AI 图生视频 Step-Video-TI2V 开源 AI

相关文章

【iThome 2024 CIO大調查系列 1｜CIO年度目標】CIO更重視開創型IT戰略，AI創新優先度今年驟增

How popular is ChatGPT? Part 1: more popular than Taylor Swift

Weka Makes Life Simpler for Developers, Engineers, and Architects

Meet HPT 1.5 Air: A New Open-Sourced 8B Multimodal LLM with Llama 3

✨ 人人都能用好AI，这款GPTs 助你定制高效工作流：Prompt for me 作为一个AI布道者，Hans 在即刻写下数百篇新产品介绍、模型研究和心得，却仍感受到不同领域和...

Gemma: Introducing new state-of-the-art open models

Redundancy in AI: A Hybrid Convolutional Neural Networks CNN Approach to Minimize Computational Overhead in Reliable Execution

OpenAI计划下周宣布ChatGPT和GPT-4更新，但不会推出GPT-5和搜索引擎

Intersect360 Research Takes a Deep Dive into the HPC-AI Market in New Report

Is the Future of Retail AI in the Hands of CTOs?