18 个 AI视频场景硬核对比评测，过来瞅瞅

不靠谱很多年 2024-12-05 08:43 上海

豆包PixelDance、Seaweed、可灵、海螺同台交锋

只要打开短视频

或许你就会发现AI视频正在快速渗透内容创作的每个角落

从重现经典电影名场面到记录和表达日常生活，再到广告、影视，这项技术的潜力很令人振奋。

回想2024年春节，Sora横空出世，虽然是一款尚未发布的“期货产品”，但却为整个AI视频模型行业提供了全新思路。

而Runway等工具的实战表现，更让我见证了视频生成技术如何突破边界、重塑创意流程。

那么，国产AI视频模型是否能在这些应用场景中“过关斩将”？

带着这样的好奇和疑问，我和多年损友pauls（多年图像、视频领域工作者）开启了这次评测。

有个常识，评测AI视频模型是一项复杂的工作，需要相对客观、全面的视角是非常难的和几乎不可能的。

经过思考，决定回归本质，我们只问自己一个核心问题：国产模型生成的视频，能否真正“用得上”？

为此，我们将从以下三大关来评测：

1、能否还原真实世界？

2、能不能商用？

3、能不能复刻电影经典名场面？

面对时间和资源的限制，我和pauls设计了一种接近现实的评测方法：

（和pauls讨论评测维度的草稿）

现实世界测评法：

关于模型选择：

之前我们测过字节跳动的文生图模型表现不错，到了9月底，他们又发布了两款视频生成模型：PixelDance和Seaweed，被媒体称为“中国版Sora”。

这让我很好奇，它们和可灵、海螺相比究竟如何？

正巧即梦AI也上线了这两款模型，分别命名为P2.0pro和S2.0pro。

于是，我把这四款国产AI视频模型凑在一起：

•快手-可灵模型

•Minimax-海螺模型

•字节跳动-豆包视频生成模型PixelDance

•字节跳动-豆包视频生成模型Seaweed

注：1、豆包视频生成模型PixelDance（以下简称：豆包PixelDance）

2、豆包视频生成模型Seaweed（以下简称：豆包Seaweed）

来一场全面大比拼！

使用同样的图片和提示词，每个模型生成至少五轮以上视频，从中选出最具代表性的一个进行对比。

依次从以下维度来测评：

语义理解能力

场景和角色的一致性

运镜控制

生成速度

效率视频生成质量(真实度、清晰度、分辨率、视频长度)

再结合我们觉得可以真正用得上过三关的测试场景👇🏻：

* 真实生活场景

* 电商场景

* 经典电影片段

* 动画场景

* 广告场景

通过这次的评测，我们希望能呈现一点国内AI视频模型的发展水平，为业内人士、B端企业客户和潜在用户提供有一点微小价值的参考。

因AI视频模型迭代很快，加上我们测试样本和场景有限，不敢说自己专业，只能用心和厚着脸皮来测试，还是一如既往不怕被打脸，欢迎专业人士和创作者一起交流和指正。

真实世界测试-玻璃球

超现实电影风格，镜头基本保持不动，一只透明的玻璃球在桌子上缓缓滚动

(这个视频很解压，点开看哦)

One More Thing

暂时结论

写在前面：

看起来是很简单的测试，但对模型考验是很大的测试，首先玻璃球必须符合现实世界的物理运动，其次因为是透明玻璃，所以在运动时，光线、倒影的处理，对模型要求非常高。

从结果上看：

豆包Seaweed和海螺都把玻璃球的通透错误地理解为水球，可灵的滚动视觉看着非常涩，不流畅。

而豆包PixelDance堪称完美，从上部窗户倒影，到下部阴影随着转动的变化，还有影子的运动，几乎找不到一点瑕疵。

本轮排名：

豆包PixelDance>可灵 1.5>海螺>豆包Seaweed

真实生活-油泼面

勺子转动，勺子里的热油倒入碗里，接触到红色的辣椒粉，辣椒粉瞬间滋滋冒泡，并升起一大股油烟

（竖版视频，视频号呈现更好，热腾腾的油泼面一定要点开看哦👇🏻）

(为了验证淋油，我和pauls还专门去吃了油泼面，拍下真实的视频的场景)

One More Thing

暂时结论

写在前面：

如果一个美食博主或一个小面馆老板想要通过自己拍摄的照片或AI生成的高质量图片，生成美食视频，目前的AI视频可行性有多少？

从结果上看：

在这个测试环节中，我们主要看三点：1、勺子的动作；2、淋油的真实感；3、辣椒的反应；4、冒出的油烟；

淋油的真实感四个模型都还OK ，接近90%了，但没有任何一款模型能完整还原油接触辣椒的真实度，有点小遗憾。

但海螺的勺子发生明显变异，当油接触辣椒后，豆包Seaweed辣椒开始急剧膨胀，可灵的辣椒也是略有膨胀，但和油的割裂感较大，可灵视频最后的结尾相对真实，结尾剪辑最后可供使用。

本轮排名：

可灵 1.5=豆包PixelDance>豆包Seaweed> 海螺

商用结果：

我们觉得一些中小企业客户或美食博主，已可用AI制作一些宣传物料。

真实生活-咖啡拉花

随着牛奶杯的运动，牛奶缓缓流入咖啡中，牛奶在咖啡的表面形成白色的：I ❤️ U

One More Thing

暂时结论

写在前面：

我很喜欢喝咖啡，特别钟情于咖啡的拉花艺术，虽我并不会拉花，但AI视频也许能让我成为一个拉花高手，并且还能用拉花向我的另一半表达爱意…

从结果上看：

本环节可以说基本是全军覆没，如果要生成中文的话，四款模型目前均不支持。

改成英文字母后，只有海螺勉强可以，但也不识别字符❤️ 。从牛奶倒入后液面的变化来看，豆包seaweed做的更漂亮一些，可灵的拉花就是一滩，而豆包PixelDance创意太强，手部动作太大。

本轮排名：

海螺>豆包Seaweed>可灵 1.5>豆包PixelDance

电商-运动鞋

水平视角，镜头固定不动，鞋子缓缓地水平旋转360度

One More Thing

暂时结论

写在前面：

如果我是一个电商，AI视频生成能否对我有所帮助？

而我所能想到的一个最基本的应用，就是：能否通过一张照片，让我的产品在尽可能保持细节的前提下，无需建模也能360度展示？

而我只有一张静态的照片，于是就有了上面的测试

从结果上看：

这个测试环节中，因为是电商需求，所以产品细节必须保持一致，并且可以实现360度旋转。

豆包Seaweed是平面二维旋转，因此本轮垫底。可灵的旋转方式有了自己的创意加入，潜力很大。

豆包PixelDance和海螺都是严格按照提示词的，唯一一点是豆PixelDance在旋转时左侧脚踝部分向外变形了。

所以本轮海螺胜出，值得一提的是，在抽卡过程中，海螺自己发挥创意的一版让我觉得海螺和电商很搭。

本轮排名：

海螺 >可灵1.5>豆包PixelDance>豆包Seaweed

商用结果：

完全可以用

电商-口红💄

镜头非常缓慢地以口红为圆心缓缓转动，口红周围突然出现各种鲜花，花瓣开始绽放，一只蝴蝶飞到口红的顶端

One More Thing

暂时结论

写在前面：

这是一张非常标准的800x800像素的电商产品照片，作为店铺运营者，我自然希望能够有一个视频，让产品可以动起来，更能吸引眼球。

之前我们测试了让产品自己动，360度展示，但这款产品是美妆产品，让产品本身动起来，效果一般，我们希望有一些辅助元素能在视频里衬托产品，给它添加更多附加价值和想象的空间

我们在提示词中加入了鲜花和蝴蝶这两个元素，希望通过此举给消费者心理暗示，有了这支口红，鲜花自然盛开，而最终结果则是引来蝴蝶。

从结果上看：

四款视频模型均正确理解了要添加的元素，豆包Seaweed的元素遮盖了主体，豆包PixelDance精准理解了以口红为中心，并且添加了转动口红后缓缓升起的特效创意，但美中不足的是生成的蝴蝶太过妖娆，有点像是幺蛾子了😂。

可灵的理解中规中矩，一点点的运镜让产品感觉更为鲜活，如果没有海螺的话，可灵本将会在此轮胜出，但是，海螺犯了其余模型所有的错，没有围绕转动，辅助元素遮挡主体，而在视觉效果上，我觉得海螺更好，你们觉得呢？

本轮排名：

海螺 >可灵1.5>豆包PixelDance>豆包Seaweed

电商-口红💄

溪水在快速流动

One More Thing

暂时结论

写在前面：

基于上一轮测试，我们有点意犹未尽，发给朋友说这种鲜花蝴蝶土味情话感太浓，一点都不高大上，要意境！

我问啥是意境？朋友说：你可以把口红放在一汪清泉中，既能体现绿色环保健康，又能暗合濯清涟而不妖的产品意境。

我们想了想，也许电商运营者不仅仅只有白色产品图，让好看的照片动起来，让AI视频模型帮我们实现专业外拍

从结果上看：

可以看到，我们的提示词只有七个字“溪水在快速流动”，越是简单则可能越难。

1、AI视频模型需要判断哪些是溪水，并让溪水动起来；2、要判断什么是主体，如何突显主体？3、最后是否有模型自己的创意理解？

其中可灵将5个水域均检测到并生成自然效果，海螺检测到4个，豆包Seaweed检测到3个。海螺和可灵不知道有没有检测主体，因为它们都选择固定镜头不动，通常情况下，视频AI默认会优先运镜的。但豆包PixelDance肯定是检测到了，并且将主体放大，以凸显产品本身。

豆包seaweed在箭头处的一个小漩涡创意，海螺翻起的水花创意，让我深刻感受到这些模型拟人的智慧。

最终基于电商感受，我选择豆包PixelDance胜出，海螺第二，它的水花很吸引眼球，让人很难猜到这是AI干的事儿，可灵第三，它老老实实检测出了所有水域，这是扎实的基本功

本轮排名：

豆包PixelDance>海螺>可灵1.5>豆包Seaweed

商用结果：

完全可以用

电商-会动的车

镜头跟随在车辆的右上方，车辆在金黄色的沙漠里加速行驶，沙尘从轮胎上扬起，阳光照在车上，背景是清澈的蓝天和白云

(网传某米未发布的SUV效果图)

One More Thing

暂时结论

写在前面：

电商产品的AI视频模型我们已经测了三轮了，第一轮让产品动起来，第二轮让辅助元素动起来，第三轮让背景动起来，说到底，鞋子和口红都是小东西，其本身都是“死物”，那么“会动的” 大东西呢？让大东西和背景一起动起来呢？

于是我们在网上找了据说是某米SUV的效果图来测试。

从结果上看：

我们当然可以使用AI生成一张漂亮的车辆在沙漠里的图片，并让AI视频模型让车辆飞驰起来，但我们使用AI的本质是什么？

除了保持创造力之外，大多数时间肯定是节约时间提高效率，那花大量时间P图抽卡，再去生成想要的视频，意义何在？

使用AI的最大原因是我们懒，或者不会，或者想省钱省时间，基于这个考量，直接用现有的图片去跑AI视频才能更好地考察视频模型的能力。

模型需要精确抠图，替换沙漠背景，让车动起来，并且环境要配合车辆的告诉运动，还要生成符合实际的沙尘。

豆包Seaweed无法理解，它更适合生成相对静态的产品视频。

可灵有点偷懒，它可以偷懒其实源自于部分自身实力，它直接将当前背景转化为沙漠场景，白色的沙海，但沙尘没有展现。

海螺模型可以实现所有提示词，但从初始图片到目的场景的切换，非常牵强，当然，后期我们通过视频剪辑软件将前面剪掉，剩余的视频效果还是非常棒的，速度感拉满。

最后要说豆包PixelDance模型，可以说是最傻瓜的最省时省力的AI视频模型，且忠实呈现提示词的需求，本轮测试排第一当之无愧。

本轮排名：

豆包PixelDance>海螺 >可灵1.5>豆包Seaweed

经典电影-复刻《雨中曲》

天上正在下着大雨，男人在雨中开始跳舞，镜头跟随他的舞蹈，聚焦在他开心的脸上

(雨中曲的效果让我们很惊艳，点开重温经典👇🏻)

One More Thing

暂时结论

写在前面：

1950年上映的美国电影《雨中曲》中有一段非常经典的在雨中跳舞的场景，我们仿照电影用AI生成了一张黑白胶片风格的照片，不仅仅考察AI视频模型对于舞蹈动作的理解，同时雨夜地面积水的倒影和跳舞时的水花也是对模型极大的一种挑战，四个AI视频模型能否重现经典，我们拭目以待

从结果上看：

聚焦这个词在AI视频中一般就是指对焦，而不是放大特写,如果豆包PixelDance模型里面的是聚焦是放大特写，我们觉得豆包PixelDance这个镜头很优秀。

豆包Seaweed对舞蹈的理解或还原不够，海螺的舞蹈动作……好吧，如果多生成几次或许会有更好结果。

本轮测试最令我感到震惊的还是可灵，无论路上积水的灯光、人物的稳定性和自然流畅度，特别特别是脚步动作带起的水花，无懈可击

本轮排名：

可灵1.5>海螺>豆包PixelDance>豆包Seaweed

经典电影-肖申克的救赎

这是一个电影场景的重现，站着的男人将手里的可乐递给另一个人，他接过可乐，镜头缓慢推动对准他肩部以上，他拿着可乐，嘴角露出一丝微笑。注意保持人物面部特征不变，手指正确

One More Thing

暂时结论

写在前面：

之前的《雨中曲》我们用AI技术复刻了一张照片，然后进行AI视频创作，这一轮我们直接用原版电影的截图，原片是肖申克打赌胜利后为狱友们赢了一箱冰啤酒，大家坐在鉴于的屋顶上享受胜利果实，肖申克说自己戒酒了，只是看着大家笑。整个画面即便经过我们后期修复，画质还是不理想，人物的脸也很小，但这是正常情况，现实中平常如我们不可能都能搞到高质量的图像，就让AI视频大模型发挥它的力量吧

从结果上看：

豆包Seaweed在本轮测试中是崩掉的，出现多瓶可乐且手脚崩坏。豆包PixelDance唯一一个忠于电影和提示词的，人物造型没有太大差异，可乐满足，接的动作达成，微笑达成，唯独优先级较低的镜头推动没有做。

海螺如前面测试所说，对于小宗商品的把控极其精准，面部特征的改变真的非常令人遗憾。可灵没有接可乐，但在对于电影场景的把控很棒，想象如果把片段剪入原片，会穿帮吗？

本轮排名：

可灵1.5>豆包PixelDance>海螺>豆包Seaweed

经典电影-紫霞仙子

镜头固定不动，女孩挥动一条手臂，手臂在空中画出一个半圆形，随着手臂的挥动空中闪出点点金光

（👆🏻为原版视频，👇🏻为AI生成）

One More Thing

暂时结论

从结果上看：

豆包PixelDance是最忠实于提示词，最接近于手臂在空中画出半圆的，而海螺是手臂水平指向，可灵是直接伸向前方且可灵的手部变形了。海螺虽然画出一个完美的圆形，但特效和手臂的关联性，且半圆这个提示词均未曾触及。

本轮排名：

豆包PixelDance>豆包Seaweed>海螺>可灵1.5

经典电影-至尊宝

男人用双手拿起面前的金环戴在自己头上

（我们配上了电影原声，记得点开看哦）

One More Thing

暂时结论

写在前面：

至尊宝带上金箍的经典镜头，主要想测试元素间的穿越，这不是简单的移动或交叉，而是穿透

从结果上看：

只有可灵实现穿透，戴上了紧箍咒。

本轮排名：

可灵 1.5 >豆包PixelDance= 豆包Seaweed>海螺

经典电影-至尊宝回头

男人回头看了一眼

One More Thing

暂时结论

写在前面：

至尊宝离开的经典镜头，主要想通过回头这一简单动作测试连锁反应，头部转动引发的身体变化、金箍棒变化以及背景的变化

从结果上看：

豆包Seaweed和可灵在本轮测试中均完全不care提示词,如果单看海螺的视频，已非常不错了，回头达成，并且城墙上的两人还在激烈互动（海螺式的创意）但海螺输给豆包PixelDance的原因在于“一眼”和豆包PixelDance对于转头后的背景扩图能力。

本轮排名：

豆包PixelDance> 海螺>豆包Seaweed>可灵1.5

经典电影-朱茵

镜头对准左侧的女孩的眼睛，不断推近镜头，放大眼球，女孩的瞳孔里倒映出黑悟空

One More Thing

暂时结论

写在前面：

主要测试-极限推拉 & 模型新鲜度

从结果上看：

本轮测试全军覆没，豆包PixelDance和海螺均实现了镜头的极限推拉，但对于目前最热门的黑悟空一词，所有模型全都不知道。

本轮排名：

豆包PixelDance>海螺>可灵1.5>豆包Seaweed

动画电影-机器猫遇上龙猫

天上飘着雪花，机器猫从肚子前面的口袋里拿出一把红色的雨伞递给龙猫

One More Thing

暂时结论

写在前面：

探索自己做动画的可能性

从结果上看：

这轮测试实在是太有趣了🤣🤣🤣

豆包Seaweed生成的视频直接让我误以为是猫和老鼠；豆包PixelDance机器猫那个嫌弃的小眼神，妥妥美漫《Family Guy》的感觉；可灵太会偷懒了，懒的生成雨伞，直接把旁边红色的巴士站牌给拽了过来。

而海螺……

我觉的如果用海螺正儿八经地生成小段视频组合成一部日系卡通片应该不是难事。

本轮排名：

海螺>豆包PixelDance=豆包Seaweed=可灵1.5

动画-持枪特效

低镜头向上运动，残阳如血，一个机甲少女持枪站立，风将她的发丝吹动起来，她突然举枪，镜头切换，对焦枪口，枪口喷射出子弹和火光

One More Thing

暂时结论

本轮排名：

豆包PixelDance完胜

豆包PixelDance>海螺>可灵1.5>豆包Seaweed

中国风-男版李子捌

镜头缓缓推近，一个男人正在制作寿司。镜头切换，聚焦手部，他的双手在捏寿司

One More Thing

暂时结论

写在前面：

随着李子柒的再度复出，她迅速再次成为榜一热门视频。李子柒的视频清新、脱俗、画面优美，浓浓的中国风。作为一个AI视频创作者，我们能否借助强大的AI能力制作李子柒风格的视频呢？

从结果上看：

首先是说结论，中国的这几款AI视频模型拿捏中国风都是稳稳当当的，视频保持了原有画面的优美，豆包Seaweed的运镜协同阳光变化；海螺镜头推进时人物一致性；可灵表现出人物的从容淡定；而豆包PixelDance则是完美执行了提示词的要求

本轮排名：

豆包PixelDance=海螺>豆包Seaweed=可灵1.5

直接商用

扫地机器人朝着镜头慢慢移动，猫跳到机器人上面

One More Thing

暂时结论

从结果上看：

在整个测试过程中，我们一直有在考虑我们自己心中反复提及的一个词“To B”。

而在测试临近尾声，我们觉得对于 “To B” 最好的诠释莫过于我们生成的 AI 视频可以直接用作广告宣传片，直接做商用短视频推广……

产品：扫地机器人
看点：猫星人

场景：居家

寓意：扫地这块，我就是王者……呸，我才是猫主子！

本轮排名：

豆包PixelDance>海螺>豆包Seaweed=可灵1.5

测试-光和风

镜头固定不动，阳光透过云层射出，女孩正在云端酣睡，她背后的翅膀微微扇动，羽翼轻轻颤动，她的发丝被风轻轻吹动，她闭着眼睛，睫毛微微抖动，微风拂动云层，金色光线弥漫

One More Thing

暂时结论

从结果上看：

只有豆包PixelDance和可灵基本保持镜头固定，所有模型均无法识别发丝吹动，海螺的创意在于手部动作，豆包Seaweed更擅长2D模拟3D运镜，但可灵最后撸头发的动作很惊喜。

本轮排名：

可灵1.5>豆包PixelDance>海螺>豆包Seaweed

女儿的画-动起来

人们在公园里散步、玩耍

（pauls女儿的画）

One More Thing

暂时结论

写在前面：

就在我们准备结束本次测评的时候，pauls突然看到了他女儿的画作，他立刻想到：如果把这幅画给到AI视频大模型，用最简单的提示词让AI自由发挥，那会迸发出怎样的光芒？

而让孩子惊喜地发现自己的作品居然动了起来，是否也能激发孩子更多的创造欲？

AI视频可能距离孩子们还很远，但这一刻，我看到了可以交汇的点。

那就用这轮测试为本次测评画上一个句号吧

从结果上看：

本轮测试没有输赢，都是胜者，就让我们静静欣赏pauls女儿动起来的画。

Last Thing

写在最后

经过两天半的图生视频测试，我们针对30个不同场景，每个场景跑了五轮以上，至少生成大几百条以上的视频，眼睛都快跑瞎了。

以下是我们对国内AI绘画模型的局限观察：

1、惊喜与期待：大规模商用临界点将至

通过真实世界场景、电商应用和经典电影复刻三大维度测试，国内AI视频模型展示了惊人的潜力。只需再迈两三步，这些模型将迎来大规模商用的临界点。

2、商用潜力初显：中小企业与自媒体的福音

在电商案例评测中，我们发现这些模型已适合中小企业和自媒体制作宣传物料。

建议大家早日尝试，抢占先机。

3、第一梯队模型各具特色

• 豆包PixelDance、豆包Seaweed、海螺、可灵各有专长，但尚无单一模型能独立完成高质量视频生成。

•豆包视频生成模型：通过模型组合给创作者提供多样性选择，特别是豆包PixelDance在提示词理解和生成质量上表现稳定，创意输出较为一致，适合明确方向的需求。

• 海螺模型：极具创意性，但稳定性不足。时而能生成令人惊艳的天才级内容，时而又显得不够理想，表现出了“天才与白痴之间”的特质。

• 可灵模型：复杂场景生成能力较强，但时间成本较高，适合对时间不敏感的用户。

• 若将各家优势整合或许能创造出一个理想模型，但现实操作成本较高。

4、模型差异性分析：从参数到表现：

这次评测，我们避开了选用非常精美的图，就是现在的AI视频界似乎感觉有点浮夸，好似《了不起的盖兹比》大家都在追求极致的奢华，而忽略了返璞归真。

• 参数设计：参数越多增加灵活性但也增添不可控因素。例如，可灵的复杂设置让人担忧是否操作错误，而海螺的极简设计则有时显得无力。

• 时间 vs 稳定性：可灵生成时间较长，容易影响效率；而豆包视频生成模型组合提供了灵活选择，特别是豆包PixelDance在提示词理解方面表现稳定。

• 提示词理解力：对提示词的准确理解决定了生成结果的可用性，豆包PixelDance在这方面胜出。我们还发现有意思的一点，海螺和可灵没有像豆包PixelDance那样完全遵循对提示词的理解，但却在部分的测试场景中带来了意外的“创意”。

• 反对过度抽卡：三次调整提示词后仍未达标的模型，基本可以断定为不够理想。

5、AI视频适用场景：适合拍板决策者

我们觉得AI视频更适合决策者们去使用，如果不能拍板做主，有权判定视频结果的好坏或微调方向，那么做AI视频只会拖垮你，消耗你，你并不适合使用AI

6、致谢&未来展望：2025AI视频值得期待

向所有参与AI视频大模型建设的团队致以敬意，你们加油！期待未来能实现“所想即所见”的视频生成体验。

6、最后的期待

做内容不易，如果这篇文章对你有用，欢迎点赞，也欢迎你转发给你的朋友，非常感恩。

阅读原文

跳转微信打开

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

One More Thing

暂时结论

Last Thing

写在最后

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签