APPSO 2024年11月16日
给马斯克上了瑞士卷大考后,我终于拿捏这个国产 AI 视频模型的最强新功能
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Vidu 1.5更新,致力于解决主体性、一致性等问题。文章介绍了其功能,如多图参考实现精准控制,还提到素材选取和舍得消费积分的重要性,以及与模型磨合的过程。

🎥Vidu 1.5上线「多图参考」功能,可精准控制生成

💡素材选取有门道,同一主体多侧面且差异不大为宜

💰舍得花积分,消耗越大效果越好

🤔用户需完成与模型磨合的「最后一公里」

原创 发现明日产品的 2024-11-16 11:59 广东

Vidu 又更新了,懂行的人都知道,这里的门道有多深。

针对主体性、一致性这样存在已久的棘手问题,是 Vidu 一直在持续突破的方向,目标就是「终结炼丹」。

我们试用了一天,对比了官方演示素材和亲测体验,发现一个重点:工程师们的努力只是一部分,真正上手起来,需要一些特殊的打开方式。

关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察

选取素材大有门道

AI 生成视频已经出来这么久了,基本的使用方式大家也都很熟悉:要么直接输入文字 prompt,要么用已经有的图片素材。

后一种方式主打的就是提高准确度,让生成的过程更可控。

Vidu 更新的 1.5 版本,上线了「多图参考」的功能,也是继续了这个路线:通过上传特定主体的不同角度或不同景别下的图片,Vidu 1.5 能实现 100%精准控制。

好啊,太好了,我跃跃欲试,卷起袖子就是干,别的不会,抄作业还不会吗——没想到,不是把图一股脑丢进去就万事大吉的。

一开始尝试的时候,我看到的案例是这样的:

把这几张图下载下来,再用同样的 prompt 复制一遍之后发现,我得到的是这样的:

眼睛会了,手不是很会。

不过有一说一,无论是海绵宝宝还是派大星,都没有特别明显的崩坏画面,应该还是我的打开方式有问题吧?

接下来我尝试了两个真人照片:梅西和科比。他们两个作为各自领域、各自时代不朽的传奇人物,素材更多——正面、背面、不同动作都可以找到。


动作拆开来看都是对的,就是切换时直接硬切——梅西这也太像拍金嗓子喉宝广告了?

一定还是哪里没有正确打开。

在 Vidu 首发时,我对它在动画风格上的惊艳表现印象很深,或许它的长处在这呢,来试试看好了:

果然,果然是(偏科的)动画特长生。

这几个动画生成的过程里,我发现了第一个技巧:多图生成的时候,尽量选择同一主体、不同侧面、不同动作,但彼此之间差距不要太大。

梅西和科比的素材,也有不同侧面,但都来自不同的赛场照片,差异还是有的。而在生成动画视频的时候,我灵机一动,找到了设定集素材。

这干净的白底图,同一主体的各个侧面略微变化,简直是素材圣体。像下面亚古兽和太一的拥抱,算是比较稳定的了。

上面的亚古兽喷火也是直接用了设定集里的素材。

必须得说一句:原画师真是伟大,人类的创造力还是独一无二的啊。

另外还有一种素材效果比较好:AI 喂 AI。这是从最开头那只惊艳的演示视频里得到的灵感。当我原片复现之后,效果也很不错。

素材里,背景的花朵我说不好,可能是实拍的。但烟熏妆女孩和玻璃质感的金鱼大概率是 AI 跑图跑出来的,在视频里却意外地表现稳定。

还有一个小皇子与凤凰,这套素材的原图,AI 感蛮强——没有说 AI 图不好的意思,况且复现出来的效果相当不错。

考虑到这上面的案例,文字 prompt 都很潦草,就那么十来个字,更加说明选取什么样的素材用来生成,非常关键。

舍得花积分最重要

另一个关键要素是:舍得消费。

多图生成一个 8 秒的视频,要花 24 积分,算是 Vidu 里面消耗比较大的。

最早的几个视频,梅西、科比、小新,效果都勉勉强强,一度引发自我怀疑。但是等到十来个视频做完,两三百积分花出去,后续的出品水平越来越在线。

比如,上面是的小新是我在1020积分时跑的,而下面这个是在 600 积分时跑出来的小新:

以及积分 580 时跑出来的海绵宝宝:

同一套皇子和凤凰的材料,在 820 积分的时候,也大变样了。

Vidu 提供「重新创作」,非常方便,图片和 prompt 都直接原样照搬。而且我所有的 prompt 都写得很简单,不过十来个字。

唯一的变化就是积分,还是要舍得花积分,花的越多,效果越好。

「终结炼丹」是这次 Vidu 1.5 的野心:仅靠图片素材就能达到 LoRA 方案的效力。

理论上这是个极大的挑战:LoRA 建立在预训练模型的基础上,通常需要 20~100 段跟主体相关的视频素材,以及大量的时间训练、微调,来追求主体生成时的一致性。这当中还要克服过拟合的问题,各种细节缺失等等。

从 Vidu 1.5 的表现来讲,这个「炼丹」的过程已经被压缩到了一个可以接受的程度:三张图,几十秒,简单的指令。

只不过,用户仍然需要完成「最后一公里」,包括在素材选取上、prompting 上,总之,这都是跟模型磨合的过程。

One More thing

通常,现有素材越丰富,生成的表现越好。而最受欢迎、有着庞大素材量的,当然是那个男人:马斯克。

上面这个融合了「小李子」莱昂纳多经典举杯动作和马斯克的视频,一次生成就到位,无比丝滑。

神奇的是,我尝试了让马斯克分瑞士卷。第一次,他不为所动,一整个静止画面——好吧,那个时候积分还有 900 多,可能还没和模型混熟。后来又试了第二次:

为什么还不切?而且为什么那么犹豫?难道也发现分瑞士卷不是那么简单了?

等我又试了一些别的视频,换了一张瑞士卷的图,在只剩 500 积分的时候,又跑了一次:

不对劲,这个 AI 不对劲,这抗拒的样子是怎么回事,谁给 AI 喂了瑞士卷大考!


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Vidu 1.5 AI生成视频 素材选取 积分消费 模型磨合
相关文章