AI生成的视频真能改了，阿里开源的VACE有点子颠覆啊。。。

差评 05月17日 12:57

AI生成的视频真能改了，阿里开源的VACE有点子颠覆啊。。。

阿里万象开源的视频模型VACE，为视频编辑带来了历史性突破。它通过加入视频编辑能力，让用户可以根据需求随意修改视频，例如修改主体动作、重新染色等。用户甚至可以自定义视频主角，替换成明星或其他形象，还能基于人体姿态图生成特定动作的人物视频。VACE的核心在于VCU模块，它像一个翻译官，将不同任务的指令统一成模型能听懂的格式，实现了一个模型顶多个用的效果。虽然目前只支持480p和720p的视频，但其全能性和易用性，预示着个人创作者可以更自由地创作，普通人手搓电影的日子也不远了。

🎨VACE模型加入了视频的编辑能力，用户可以按需求随意修改视频，比如手绘草图修改主体动作，或者重新定义花的颜色。

🎭视频画面的主角也能自定义，可以给模型一个小孩和一条蛇，生成一支“喜气洋洋过蛇年”的视频，甚至能将生成好的视频主角随意替换，明星或将不再需要亲自出演。

🤸VACE可以基于人体姿态图，生成特定动作的人物视频，例如一段练空手道的男孩视频，动作活灵活现。

⚙️VACE使用VCU核心模块，将不同任务的“指令”统一成模型能听懂的格式，实现了文生视频、图生视频等多种功能，一个模型顶多个用。

世超 2025-05-17 00:00 浙江

视频模型新神来了。

就在前天晚上，阿里万相开了个只有十分钟的发布会。

主讲人平淡的语气，让人以为这就是一次普通的视频模型开源。

但看完他们放出来的效果，再加上一手实测，我的看法是，这可能真的是视频开源模型的一个历史性时刻。

众所周知，现在的视频生成模型就跟开盲盒一样，你辛辛苦苦输入一段提示词，结果模型根本听不明白，给你生成的视频总和你的想法有点落差，白白浪费咱的余额。

而VACE这波，最牛的一点就是加入了视频的编辑能力——模型可以按你的需求随意修改视频了。

主体动作不合理？咱可以手绘个草图让它改。花的颜色不对？咱也能重新染色。

意思是，咱以后想要什么颜色的左手右手慢动作，都可以随心所欲定义了。

更神的是，视频画面的主角，咱也能自定义。

比如，可以给它一个小孩一条蛇，让它生成一支“喜气洋洋过蛇年”的视频。

别说，还真挺自然的，可爱得我想养一只。

而且，就连生成好的视频主角，它也能随意替换。。

这家伙，以后明星真不用演戏了，发张自个儿的模型过去替换一下就成了。。

而且，它还能基于人体姿态图，生成特定动作的人物视频。

一段练空手道的男孩的视频，就这么活灵活现的做好了。

这不由得让世超想起一张图啊，被认为是AI代替不了人类的铁证，现在我看人类最后的高地也守不住了。。

X上一些网友们关于这个功能的测试，也是够震撼的。

比如把《Never Gonna Give You Up》的动作套到某动漫角色身上。

还有展示视频扩展功能的，还真毫无违和感，完美的融入了这种艺术风格。

但现在官方还没发布试用入口，本地部署也巨吃配置，想体验满血版的可能还得等两天。值得一提的是，这次VACE开源了两种参数，其中1.3B的可以在消费级显卡上运行，14B的就不用想了，谁来都不好使。

世超找了个14B的量化版浅测了下，来带差友们一起看看效果。注意，不代表满血版效果。

我们找了张大明星哪吒的全身照。

又找了张《街霸》里的人物动作图，叫哪吒模仿该动作。

看看丢进去效果如何？

好像还真没啥毛病啊，如此完美的回旋踢。感觉饺子导演可以闭关研究研究这个了，明年之前手搓哪吒3。

首尾帧生成也做得不赖。我们用黑神话序章里的两张截图做了下测试。

其实还不错，大圣飘在云上的感觉也画出来了。

咱再来看看局部替换功能。宣传片里的人狗共舞，大伙应该都有印象。

诶，这狗长得还挺像公司的爱犬火锅的，所以同事表示他想进去与火锅共舞。这愿望必须满足了啊。

动作确实挺齐的，就是这狗怎么感觉有点蚌埠住了？

不过，这些视频实际上都挺糊。。这是因为VACE目前似乎只支持480p和720p的视频，要做到高清无码还是有点难，而且特别吃显存。。但从效果来说，确实算得上牛。

所以，一个模型这么全能，VACE到底是怎么做到的？

简单来说，他们使用了一个叫 VCU (Video Condition Unit) 的核心模块，这玩意就像一个翻译官，把不同任务的 “指令” 统一成模型能听懂的格式。对模型来说，就是一个【文、图、蒙版】的三元组。

举个例子，如果用户只输入了文字指令，模型发现有文字，但图片和蒙版都没要求，就知道是文生视频指令；要是参考图生成视频，那输入里肯定会有参考图和提示词，模型看见参考图和文字，就理解要让它干图生视频的活儿了。

这样一来，模型不用为每个任务单独学习，而是通过这三个要素的排列组合，灵活处理各种需求。

有了 VCU，这玩意就实现了一个模型顶多个用的效果。

以前，咱需要多个模型分别做不同任务，现在一个就行，而且我们还能精准控制修改内容，通过修改蒙版和参考图，只改想改的部分，其他地方不受影响；甚至只给动作和人物照片，就能生成一段影像。

值得一提，现在拍短剧正热乎呢，这VACE的出现，应该会给个人创作者带来极大的自由空间，拍一段实景，直接让AI给你加特效，不满意就删了重画。人要上天入地，也不用吊威亚了。到时谁还分得清我和成龙？

有了这玩意儿，普通人靠自己手搓电影的日子应该也不远了。

说起来，阿里这些年好像一直是国内AI的领跑者，只不过一直在当AI界的汪峰，一出风头就被抢。

像他们的通义千问，性能持续突破，旗舰模型 Qwen3-235B-A22B 在数学推理、代码生成等评测中超越 OpenAI o1、Gemini 2.5 Pro 等国际顶尖模型，且部署成本仅为同类模型的 3%，仅需 4 张 H20 显卡即可运行满血版。

这次又搞了个视频界的“源神”，不得不说的确有种闷声发大财的味道。

不过这也说明一点，就算风头被抢，人家也是有在老老实实做事的，而且还把自己的东西拿出来分享，只能说伟大，无需多言。

对普通人来说，这也表示机会越来越多了，未来成为创作者的门槛也会越来越低。只要你有想法，搓出属于自己的人生大片，也就顺手的事。

说到这，你是不是对未来有些许期待了呢？

撰文：不咕

编辑：江江 & 面线

美编：焕妍

图片、资料来源：

VACE、X、Qwen3、哪吒、黑神话悟空

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

VACE 视频编辑 AI模型开源阿里万象

相关文章

Meet HPT 1.5 Air: A New Open-Sourced 8B Multimodal LLM with Llama 3

Gemma: Introducing new state-of-the-art open models

Open Source Generative AI at Hugging Face with Jeff Boudier - #624

Exploring the FastAI Tooling Ecosystem with Hamel Husain - #532

周鸿祎：留给谷歌的时间不多了，建议把所有产品都开源

腾讯副总裁蒋杰：混元文生文大模型将在三季度开源

MARKLLM: An Open-Source Toolkit for LLM Watermarking

Hugging Face Releases LeRobot: An Open-Source Machine Learning (ML) Model Created for Robotics

Meta据悉正与出版商讨论人工智能模型训练合作

IBM開源程式開發專用Granite語言模型，效能超越當前多數開源模型