掘金 人工智能 前天 19:08
告别工具切换噩梦!阿里巴巴通义万相 Wan2.1-VACE:一个模型,通吃视频生成与编辑!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里巴巴开源的通义万相 Wan2.1-VACE 模型,是一款集视频生成与编辑于一体的AI工具,堪称AI视频领域的“全能一体机”。它不仅支持文生视频和图生视频,还能进行视频重绘、局部编辑、对象替换、背景延展和时长延展等多种操作。该模型最大的亮点在于其强大的可控性,通过多模态输入,用户可以对视频元素进行像素级的精准控制。轻量版模型甚至能在消费级显卡上运行,极大地降低了AI视频创作的门槛。通义万相的开源,预示着AI视频创作将变得前所未有的高效和灵活。

🎬**全能一体机**: 通义万相 Wan2.1-VACE 不仅仅是视频生成模型,更是一个强大的视频编辑台,集成了视频重绘、局部编辑、对象替换等多种功能。

🖼️**多模态精准控制**: 通过文本、图像、视频、遮罩和控制信号等多模态输入,用户可以对视频元素进行像素级的精准控制,实现精细化编辑。

🚀**消费级显卡支持**: 1.3B 参数的轻量版模型能在消费级显卡上运行,降低了AI视频创作的门槛,让更多人有机会接触顶尖AI能力。

🏆**性能卓越**: 在VBench视频生成模型综合评测榜单上表现出色,总分高达 86.22%,超越了Sora和Luma等模型,尤其在动态表现和多物体交互方面表现突出。

各位AI圈的朋友们,大事件来了!最近,阿里巴巴正式开源了他们最新的AI视频模型——通义万相 Wan2.1-VACE。说实话,当我看到它的介绍时,心里只有一个词:“卧槽,这下牛了!”

为什么这么说?因为在AI视频领域摸爬滚打这么久,我们都懂那个痛:生成视频有生成视频的模型,编辑视频有编辑视频的工具,抠图得用这个软件,改个颜色得换那个插件,想控制人物动作又得找别的方案……就像在厨房做满汉全席,刀、勺、锅、碗都得换个遍。

但通义万相 Wan2.1-VACE 直接告诉你:“别折腾了,我一个就够!”

这不是“又一个”视频生成模型,它是“全能一体机”

很多模型都号称能“文生视频”或“图生视频”,Wan2.1-VACE 当然也行,而且能力还很扎实,能根据你的文本描述或参考图片,生成流畅、细节丰富的视频。

但它的杀手锏在于:它不只是个生成器,更是个强大的视频编辑台!而且这一切,都是由同一个模型完成的。

想想看,你可以用它做什么:

这太夸张了!以前这些操作,要么是后期软件里的专业技术,要么得依赖多个不同的AI模型甚至服务。现在,一个Wan2.1-VACE模型,把这些都打包了!

不止能做,还能“听话”:像素级的精准控制

光能做还不够,AI生成最令人头疼的就是“不可控”。很多时候出来的结果跟我们想的南辕北辙。但Wan2.1-VACE 在“控制”上,下足了功夫。它能让你像个提线木偶师一样,对视频里的元素进行像素级的精准控制

它是怎么做到的?关键在于它支持的多模态输入。它不只看你的文字Prompt,还能同时“理解”和“参考”多种其他信息:

想想看,你输入一个视频,再加一个Mask,框选人物;然后给一个姿态图,让人物从“站着”变成“跳舞”;再给一个光流图,控制人物跳舞时向左移动三步;同时再给一个文本Prompt,让背景变成“星空”……这一切复杂的操作,理论上只需要一个模型,一次推理就能完成!这种控制力,是很多纯生成模型望尘莫及的。

这一切多模态输入的背后,是 Wan2.1-VACE 采用的**“视频条件单元 (Video Conditional Unit, VCU)”** 这种巧妙的技术架构,它能把这些五花八门的输入信息,“标准化”后喂给模型处理。

性能与门槛:消费级显卡也能玩转?

之前很多强大的AI模型,不是闭源不公开,就是对硬件要求高到离谱,普通人根本玩不起。Wan2.1-VACE 在这里又带来惊喜。

阿里巴巴这次开源了两个版本:1.3B 参数的轻量版和 14B 参数的“满血”版。重点是,那个 1.3B 版本!根据官方信息和社区测试,它竟然**能在消费级显卡上运行!**比如,在 RTX 4090 上生成一段几秒钟的 480P 视频,显存占用也就 8.19GB 左右,推理时间大约几分钟。甚至有说法称,在 RTX 3060 这样的显卡上也有跑起来的可能性!

这可是个大事件!它极大地降低了AI视频创作的门槛,让更多个人创作者、小型团队甚至是学生,都有机会接触并使用这种顶尖的AI能力。

当然,14B 版本能生成更高清(720P甚至更高)、质量更好的视频,但对硬件要求也更高,适合专业级工作站。

在性能评测方面,根据官方信息,Wan2.1 系列模型在 VBench 这个视频生成模型综合评测榜单上表现出色,总分高达 86.22%,甚至超越了之前备受关注的Sora和Luma等模型,特别是在动态表现多物体交互等关键指标上。这意味着它生成的视频不仅流畅,而且能更好地处理复杂场景和物体的互动。

对了,还有一个小亮点,据说 Wan2.1 是首批能准确生成中英文双语文本的视频模型,对于中文用户来说非常友好。

未来已来,触手可及

通义万相 Wan2.1-VACE 的开源,不仅仅是发布了一个模型,更是向整个行业抛出了一块基石。它的“一体化”能力和强大的控制力,预示着AI视频创作将变得前所未有的高效和灵活。

想象一下,未来的视频制作流程:初稿生成、局部修改、风格调整、背景替换、动作微调……所有这些可能都只需要在同一个界面里,通过调整Prompt、Mask或控制信号来完成。这无疑将极大地提升创意效率,降低专业技能门槛。无论是影视后期、广告制作、独立动画,还是我们日常的社交媒体内容创作,都将因此受益。

模型的代码、权重已经在 GitHub、Hugging Face 以及阿里云的魔搭社区(ModelScope)上全面开源,遵循友好的 Apache-2.0 许可证,这意味着你可以自由地下载、研究、使用,甚至用于商业用途(当然要遵守许可证条款哈)。

虽然官网 Wan.video 还在“Coming soon”,但模型本身已经触手可及了!

总而言之,阿里巴巴通义万相 Wan2.1-VACE 的开源,是AI视频领域一个振奋人心的里程碑。它用一个模型打通了生成和编辑的壁垒,用多模态输入赋予了我们前所未有的控制力,更用消费级硬件的支持让这项技术不再是少数人的专利。

AI视频创作的“工业革命”,也许才刚刚拉开序幕,而Wan2.1-VACE,无疑是这场变革中的一位重量级玩家。赶紧去试试吧,未来的AI视频创作者们!


如果你也对最新的AI信息感兴趣或者有疑问 都可以加入我的大家庭 第一时间分享最新AI资讯、工具、教程、文档 欢迎你的加入!!!😉😉😉

公众号:墨风如雪小站

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

通义万相 AI视频 视频编辑 多模态输入
相关文章