36kr 2024年07月03日
Runway 最强文生视频模型开放公测,效果依旧惊艳,但先别急着付费
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Runway Gen 3 Alpha 公测开启,用户可以利用该工具生成更精细、更流畅的短视频。新功能包括更逼真的材质、更自然的镜头运动以及更丰富的转场方案。Luma 也更新了首尾帧功能,用户可以指定两张图片作为视频的起始和结束画面。

📡 **Runway Gen 3 Alpha 提升了视频细节和流畅度:** Gen 3 Alpha 在材质、光线折射和镜头运动等方面都有了显著提升,生成更加逼真、自然的短视频。

📢 **Gen 3 Alpha 提供更多镜头语言选择:** 用户可以通过 prompt 词指令,更自如地控制镜头运动,实现更丰富的画面表现形式。

📣 **Luma 和其他工具更新首尾帧功能:** Luma 和字节的即梦 AI 都更新了首尾帧功能,用户可以指定视频的起始和结束画面,模型将自动完成中间部分。

📤 **Gen 3 Alpha 提供了更具创意的转场方案:** Gen 3 Alpha 在转场设计方面表现出色,能够实现场景之间的自然切换,例如从雪地到树丛,或者从高空到酒店房间。

📥 **文生视频工具定位回归辅助角色:** 文生视频工具的定位不再是直接完成创作,而是提供不同的方案,帮助用户提高工作效率和减少工作量。

📦 **文生视频工具竞争激烈:** Runway、Sora、Pika、Luma、可灵 AI、即梦 AI、Vidu 等都在快速发展,竞争日益激烈。

📧 **文生视频工具未来发展方向:** 未来文生视频工具将更加注重细节、流畅度和创意,并提供更精准的控制功能。

文生视频工具的内卷,又又又又又一次升级了,没有最卷只有更卷。Runway Gen 3 Alpha 昨日开启付费用户公测,随着越来越多用户动手测试、分享,可以看到不少逆天成果。 

一名指挥正指导乐队演奏 图片来自:X 用户@RyanMorrisonJer 

总体来看,成片仍然是十秒出头的短视频,细节的精致度和丝滑程度上有不错的提升。当然了,一些无厘头硬伤还是会出现,毕竟模型没法真正理解物理世界。细节的提升主要在表面材质的平滑和仿真程度,包括人脸皮肤、光线折射、动物皮毛等。 

一只正在吃面的大熊猫 图片来自:X 用户@takapon_jp 

镜头移动的流畅度也表现不俗,结合官方提供的 prompt 词,能看出提供了更多关于镜头语言的选择,用户只需要输入指令,能更自如地呈现镜头运动是本次更新的一大亮点。 

俯瞰赛博城市夜景 图片来自:X 用户@AIeseshi 

无独有偶,Luma 也在 6 月 30 号更新了自己的首尾帧功能,用户可以指定两张图片作为视频的起始和结束画面,模型将自行分析和完成整个视频。类似的功能字节旗下的即梦ai也提供,不算是新鲜事儿。 

Luma 官方对首尾帧的演示 图片来自:LumaLabsAI 

既然赶上前后脚更新,用户们难免让几家做一做同题竞赛、捉对厮杀。除了 Luma,背靠 OpenAI 的 Sora 也不会被落下。 

走在东京夜晚街头的女人 图片来自:X 用户@keitowebai 

从成片对比来看,Gen-3 还是相当能打的。Gen-3 的优势除了上述流畅自然的镜头运动、景别切换,对 prompt 内容的理解也不错。当然了,各家多多少少,都还是有物理逻辑硬伤,场景理解也有问题。 

上图为 Luma,下图为 Runway Gen-3 图片来自:用户@shunchi_uu 

不过,只有付费用户才可以体验 Gen-3 Alpha,我们整理了订阅计划的基本信息: 

考虑到 Gen-3 对积分的消耗只会比就模型更多,折算下来制作的成本约在一美元左右,价格并没有被「打下来」。想要尝鲜的朋友,以下是链接传送门: 

https://runwayml.com/ai-tools/gen-3-alpha/ 

有一点提升,但不多 

值得注意的是它在转场上颇具创意,X 用户@JH4TC 把自己用 Gen-3 生成的几个视频剪在了一起,它们都涉及到主体对象从一个场景切换到另一个场景里。 

这样的段落里,虽然镜头只是向前推动,没有炫酷的动线,但是画面里的景色和需要快速又丝滑的改变,可以说,Gen-3 为此提供了很不错的「转场方案」。在下面的案例里,行车路线要从雪地变成树丛,首先出现的是积雪中的车辙印,再逐渐出现树叶。 

这是一个合理又丝滑的转场变化,符合通常影视制作的逻辑。类似的,还有跳伞员原本在高空中,忽然一跃进入了一个酒店房间。 

图片均来自:X 用户@JH4TC 

这个案例里最大的 bug 是人物出现了三只手,不过,忽略这个问题的话,两个场景的切换时,墙壁的剖面一闪而过,的确是一种常见的转景思路,经常出现在「一镜到底」的影片设计当中。 

期望管理,观念回归 

在这个时间点上来看,Runway Gen-3 的公测,像是一种对观念回归的召唤:文生视频工具的定位,不在于一步到位,直接完成创作,而是类似于其它大模型产品,扮演辅助角色,提供不同的可选方案,来提升工作效率和减少工作量。 

文生视频工具的本质,始终是为用户的创意需求,提供潜在方案。比如在 X 用户@bennash 分享出来的 Gen-3 成品中,出现了同一个主题「imagine」,同样的玫瑰花+马赛克花砖元素,Runway 给出了既相似、又不同的成片。 

以「imagine」为主题的绘制 图片来自:X 用户@bennash 

是不是有点熟悉?本质上,和 Mid-journey 每一次 prompting 后会收到几张图片,是同样的道理。用户只需要选择最为接近自己心中设想的画面,再做 fine-tune,不必从 0 开始绘制、搭建。 

不同的是,目前的文生视频工具,光是生成单个视频已经非常费劲,毕竟文本与动态影像之间有着不小的距离。像 MJ 那样,一次给出多个方案供选择暂时无法实现,用户只能一次次尝试,最终账单也可能非常惊人。 

一卷再卷,竞争步步升级

Runway 曾经是文生视频的领先玩家,但 今年以来,这个赛道的形势急剧变化,Runway 的先发优势,目前已经被 Sora、Pika、Luma 等快速追上。 

在国内,快手出品的可灵 ai,字节出品的即梦 AI,生数科技出品的Vidu 等,也都在以最快速度入场参赛。其中以可灵表现最为突出,影像的细节和一致性都非常惊艳,物理逻辑也完全在可接受范围内。 

可灵官方演示 图片来自:可灵ai

Vidu 发布时,一度宣称自己是「中国版Sora」,官方演示的确不错,但后续乏力,还需要更多观察。

Vidu官方演示 图片来自:Vidu 

另一个被认为可与 Sora 对垒的是 PixVerse,来自爱诗科技,五月时发布了最新的「魔术笔刷」功能,能够更精准地控制画面局部动态。 

PixVerse官方演示 图片来自:PixVerse

即梦的原名是 Dreamina,背靠字节,在字节重码下注人工智能的前提下,即梦的表现也相当不错,尤其是影调和画面色彩,更为丰富。得益于字节的社交基因,社区的分享氛围活跃。 

车厢里回眸的年轻女人 图片来自:即梦用户@瓷瓷 

从视频拍摄角度上来讲,相比于人物的正反打、渲染氛围的空镜头等,场景转换是更为关键的环节——它可以表示故事情节的转折,也可以是人物状态的变化。 

Gen-3 在转场设计和镜头运动方面的提升,意味着有一定创作能力的用户,可以这样关键的创意节点上,借助文生视频工具生成影像方案预览。在这种关键位置上,花点积分,出几个预览方案,有助于提高下游制作步骤的准确度和效率。 

Runway 官方演示 图片来自:Runway 

文生视频的内卷,只会越来越激烈,没人会怀疑,接下来生成的影像会更高清、更流畅、更细腻,这只是时间问题。但进入下一阶段,则会面临更严苛的目光,提升了哪里、是否关键,将会是所有生成类工具需要面对的问题。 

本文来自微信公众号“APPSO”(ID:appsolution),作者:Selina,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

文生视频 Runway Gen 3 Alpha Luma Sora AI 工具
相关文章