奥黛丽·赫本真令人倾心！阿里开源通义万相全能视频大模型

快科技资讯 05月15日 11:36

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

阿里巴巴正式开源通义万相Wan2.1-VACE，这是一个功能全面的视频生成与编辑模型。该模型支持文生视频、图像参考视频生成、视频重绘、局部编辑、背景延展以及时长延展等多种功能。此次开源包括1.3B和14B两个版本，其中1.3B版本可在消费级显卡上运行。Wan2.1-VACE支持文本、图像、视频、Mask和控制信号等多种输入形式，能够控制角色一致性、布局、运动姿态等要素。该模型还支持多种基础能力的自由组合，用户无需训练新模型即可完成更复杂的任务，极大地拓展了AI视频生成的应用空间。

🎬通义万相Wan2.1-VACE是业界功能最全的视频生成与编辑模型，支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等多种功能。

💻本次开源了1.3B和14B两个版本，1.3B版本可在消费级显卡上运行，方便开发者和用户体验。

🖼️Wan2.1-VACE支持多种输入形式，包括文本、图像、视频、Mask和控制信号，能够控制角色一致性、布局、运动姿态和幅度等要素。

✨该模型支持任意基础能力的自由组合，用户无需针对特定功能训练新的专家模型，即可完成更复杂的任务，例如物体替换、将竖版图片变成横版视频等。

🚀自今年2月以来，通义万相已先后开源多个视频生成模型，在开源社区的下载量已超330万，在GitHub上获得超1.1w star，是同期最受欢迎的视频生成模型。

快科技5月15日消息，5月14日晚，阿里巴巴正式开源通义万相Wan2.1-VACE，这是业界功能最全的视频生成与编辑模型，单一模型可同时支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等全系列基础生成和编辑能力。

本次共开源1.3B和14B两个版本，其中1.3B版本可在消费级显卡运行，开发者可在GitHub、Huggingface及魔搭社区下载体验。

据介绍，Wan2.1-VACE支持全部主流输入形式，涵盖文本、图像、视频、Mask和控制信号，可以实现角色一致性、布局、运动姿态和幅度等要素的控制。

例如，Wan2.1-VACE可以基于物体参考图或者视频帧生成一段视频，也可以通过抹除、局部扩展等操作，对原有视频进行重新生成，该模型还可以通过深度图、光流、布局、灰度、线稿等控制信号对视频进行编辑。

Wan2.1-VACE还支持任意基础能力的自由组合，用户无需针对特定功能训练一个新的专家模型，即可完成更复杂的任务，极大地扩展了AI视频生成的想象空间。

例如，将图片参考和主体重塑功能组合，可以实现视频的物体替换；将图片参考、首帧参考、背景扩展和时长延展功能，可以将一张竖版图片变成横版视频，并且在其中加入参考图片中的元素。

据悉，自今年2月以来，通义万相已先后开源文生视频模型、图生视频模型和首尾帧生视频模型，目前在开源社区的下载量已超330万，在GitHub上斩获超1.1w star，是同期最受欢迎的视频生成模型。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签