原创 馒头大侠 2024-06-11 17:05 北京
AI视频的先进性在于对视觉形式的革新。
(本文作者馒头大侠:社交方向PM一枚,研究并倒腾AI陪伴、AI视频中。欢迎交流!联系方式见文末微信号。)
主要观点
1.AI视频的先进性在于对视觉形式的革新,而不仅是降本提效的生产力工具。因此也更期待有更多创新的内容实践出现,而不仅仅只是把能够用摄影机拍摄的视频都用AI重做一遍。
2.作为降本提效的生产力工具来看,AI视频工具能带来多大程度的生产门槛降低,从而引入更多的合格内容及创作者是存疑的(出现更多垃圾内容倒是毫无疑问)。而作为仍然面向专业人士和专业场景的工具,文生视频可能并不是最好的交互模式。
3.AI推动视觉形式变革将会如何发生?先行者会是富有创作能力与实验精神的创作者,他们会首先利用AI技术的长板突破摄像机只能复制物理现实的限制,带来新的叙事和视觉冲击。后续工作流的变更与更多创作者、消费者的卷入,将继续加速这个变化,发展出更不拘泥物质现实、更多与用户进行交互的内容形式。
4.除了在生产端发挥作用外,轻量级的AI视频生成及其随机性或许也可以成为娱乐互动的手段之一。
01 文生视频可以达到“人人都能拍视频”吗?
在讨论这个问题之前,需要明确的是,无论是视频,还是更历史悠久的文字、图像、真人演出,它们实际上都只是表达的工具。而历史上一次次技术的迭代(无论是AI,还是互联网/摄像机/打字机),也只是让工具发生变化,令其变得门槛更低、成本更低、传播更广泛。那么,更低门槛的工具,就一定会带来更普及的使用、从而带来供给者的猛增吗?
视频工具实际上是服务于“讲故事”这个最终的目的的。讲故事这个事情上,从最古老的荷马史诗吟游诗人口口相传,到戏剧的真人演出、到可以复制物理现实的电影,无论表现形式在怎样变化、无论讲故事的工具怎么变化,叙事能力始终是基建。对叙事能力的要求决定了“讲故事”这件事必定是有专业度的。有专业度就意味着这事不太可能在大众范围内普及。
可以想见的是,当AI技术下的视频生成变得越来越容易上手之后,一定会有巨量的垃圾内容涌现出来。低门槛的工具会带来蜂拥而至的尝鲜者,会在热潮的推动下,开始热情尝试AI创作;但同样会在遇到困难之后(叙事和镜头设计的难度、视频发布之后没有反馈不受欢迎等)停止创作。最终,低门槛的创作工具仍然只是在“有叙事能力和创作能力”的用户持续被使用。
而且,更加值得细思的是,AI真的令视频生产这件事变得门槛更低了吗?对照上一次视频工具的变革,从专业大块头设备到普通手机,后者明显比前者的可得性更高、能覆盖更广阔的人群,因此能在更广阔的人群中对有专业创作能力的人进行筛选,从而获得更大的创作者群体。但是,AI文生视频相比于智能手机拍视频,看起来并没有覆盖更广泛的人群。AI模型必须依托于移动端和PC端的设备来运行。甚至,对于未经受专业训练的大众来说,举起手机对物理现实进行“复制”,比起“构思出视频内容和画面并用文字描述出来”,其实是步骤更少、动脑也更少的简单操作。
这样来看,这一轮AI技术对于视频工具的革新,看起来并没有扩大覆盖的人群范围(能用AI做视频的大概率肯定也会用手机拍视频),仍然是在相对稳定的人群中,用相对变化不大的条件在筛选创作者。也就是说,AI视频工具必定会带来更广泛的尝鲜者,但是并不一定会带来更广泛的、水平合格的内容创作者。
02 对于专业人士来说,文生视频真的是合理的交互方式吗?
如前所述,AI视频不一定带来更广泛的创作者,能驾驭AI工具进行创作的,仍然是具备创作能力和叙事能力的少数专业人士。对于这类用户来说,AI工具的便捷之处在于,能够部分地解除物理现实的限制,从而降低外景和演员成本从而让生产更加高效,或是进行更加超现实的创意实践。
而当AI视频工具的主流用户仍然是小众的专业人士、视频生产的场景仍然是有质控要求专业类生产场景时,通过文字来生成视频是一种好的交互方式吗?
视频实际上是一种对精确度的诉求较高的内容。首先,相比于文字来说,尤其是娱乐类的文章内容,很多时候或许段落之间的顺序调换也并不那么影响阅读,但是可能一个镜头内两帧的顺序错乱,都会引发违背物理现实的视觉效果,从而产生混乱感。因为视频中表现的是物理现实的逻辑,文字仅表达叙事逻辑,前者无疑是比后者要更精密。
其次,视频中的这种精确度,跟代码中要求的精确度不同,对机器来说更难以被理解、更含混。代码中的精确度是由严密清晰的数理逻辑构成的,并且是可以通过底层编译器被机器理解的逻辑。而视频中的逻辑是物理世界的规则,简单如“一个人在路上走”这类描述,都会涉及到复杂的人体运动、环境变化等多重物理世界的规则。也就是说,一个镜头中涉及到的物理世界的运行逻辑,本身就更为复杂多样,且这些规则也是更难以被机器所理解的。
因此,对于机器来说,视频实际上是一种规则含混、精确度高的输出形式。那么,用自然语言这种本身精确度并没有那么高的输入来指挥模型进行高精度的输出,真的是一种更为高效便捷的模式吗?
相信使用过AI视频工具的用户,都曾有过对模型的产出感到哭笑不得的时刻。无论是Pika 、Runway,人物和物理轮廓变形、运动轨迹不连贯、不符合物理现实的问题并不在少数。这背后的原因,一方面涉及到当前模型的能力并不完备(这也意味着未来随着技术发展这类问题自然会获得解决,快手最新内测的模型看起来就展现出更优秀的生成能力),另一方面是否也跟自然语言这种输入并不精确、难以更精准地指挥模型进行产出有关?
在专业的视频生产场景中,为了获得视觉上合格的内容,生产者实际上需要用更精确地对机器/模型的控制、来获得更准确、更可控的结果。在前AI时代,这种精确控制对应的是各种大块头设备、各种剪辑调音设备软件中繁多的控制按钮。那么,在AI时代,是不是类似comfyUI的各种插件、节点和workflow,或是Runway的motion brush一类的交互形式,更适合来准确操控模型并进行精确产出呢?
03 除了生产力工具外,AI可能带来的更大变革是对视觉形式的革新
参考前互联网时代到互联网时代的对“创作”这件事的变革,一方面,生产工具的低门槛和由之带来的普及度,再加上发布渠道的草根化(不需要专业编辑来把控发表),让供给充分增加。另一方面,用户和内容之间的关系发生变化,用户的反馈更明显、即时地触达到创作者,并成为内容分发的重要权重,这使得“创作”这件事的工作流发生了明显的变化:
(1)前互联网时代:创作 —> 编辑筛选发布 —> 用户观看
(2)互联网时代:创作 —> 自主发布 —> 用户留言评论反馈 —> 迭代创作
这两种工作流中,创作本身涉及到的工作没有发生太大的变化(仍旧需要写剧本、设计分镜、实景拍摄、后期剪辑和处理);它们的主要区别在于,消费端的反馈在生产端能发挥多大的影响力。
前互联网时代,创作端和消费端是明显分离的,创作端自有一套关于各类内容的准则,也有评论家、编辑这类职业群体来对内容的好坏进行评价。进入到互联网时代后,消费端更明确地介入到生产环节,用户的数据和反馈直接影响到创作者对于内容的判断和实践,也影响到对流量的分发及其背后涉及到的利益分配。这种受到强用户反馈影响的工作方式明显不同于前互联网时代,更以作者为中心的精英式创作方式。
这种工作流的变化衍生出更适配快速消费场景、更迎合观众的内容形式。互联网时代的内容可以更快速的进行“反馈-迭代”的循环,创作者在数据、用户反馈、流量的强刺激下,从而发展出一套适应短视频(快速消遣)场景下的镜头语言和叙事方式。在更为传统的电视媒体时代,是难以想象当前风靡快手、抖音、B站的各种表达形式的。
那么类比一下,在AI技术的加持下,工作流会有怎样新的变化呢?
1.当更多的创作者适应了AI生成的方式之后,AI本身的长板将更多地被融合在创意和叙事中,从最开端的剧本创作就将打破摄影机仅能复制物理现实的限制。这一步应该是最快能实现的,Sora此前召集创作者发布并广受好评的视频《Air Head》(讲述了一个脑袋是气球的人,在正常人世界中的生活),就是创作者运用AI发挥出来的魔幻现实主义影片。
2.生产端的线性工作流(剧本-分镜-拍摄-后期)将被打破,不断在带有随机性的生成中出现新的创意线索,这部分创意线索可以反哺原有的剧本和分镜设计。这一点可能令当前内容团队的协作方式产生变化,写剧本的人得懂一些AI生成的能力,进行AI生成和拍摄的人得能够更有创意地即兴发挥生成的各种内容。这一点更多地可能会影响到市场对人才的需求以及行业内的人才结构。
3.消费端对生产端的影响力还会继续扩大。原因在于,用户不仅可以像互联网时代一样,继续用各种行为对内容进行反馈,并通过这种后置的方式来影响生产者,用户还可以直接参与到内容的创作之中,内容在消费的过程中就可以即时地被二次创作。
结合这些推导再来看当前的AI在视频内容上的实践,一部分是借助AI开始进行各种视觉实践(比如Sora联合拍摄短片的导演),另一部分是极力标榜不用出外景、不用演员的低成本影片。后一种固然对很多老板来说很大的兴奋点,但是这类AI模拟现实的影片,在节约成本的同时真的能给用户带来好的体感并成为视觉享受吗?从用户的角度来说,更有创意和巧思的内容、更有趣味的互动形式,或许才是AI视频内容最大的吸引力和卖点吧。
04 结语
AI生成视频的能力无疑将节省拍摄成本,令供给端的产出更加低成本、高效率。但是AI对于视频内容能发挥的作用力可能远不止于此。Sora此前联合电影导演们发布的创意视频只展示了AI时代创意的一角,在卷入更多创作者和消费者的过程中,期待有更多创新的内容实践出现,而不仅仅只是把能够用摄影机拍摄的视频都用AI重做一遍。
此外,跳脱出内容创作的范畴来看,大众虽然不能更广泛的进行完整合格的内容创作,但是可以在轻量级的创作过程中获得乐趣,而且AI生成的随机性更能增加创作的趣味色彩。那么,AI生成视频的能力是否也能融合到社交、娱乐相关的功能中呢?比如社交IM中自定义动态表情包、直播打赏中自定义的创意礼物。也就是说,除了在创作领域内容发生变革之外,消费端的各类场景中是否可能融入更多的“创作”,从而令消费端的部分体验得到提升呢(比如C.ai类的用户已经在边消费边创作了)?也非常期待能看到有更多产品和场景在这个方向上作出创新的尝试。
喜欢文章的朋友们请不吝点个“在看”
作者微信:chaojz88,请备注身份添加
公众号相关文章
作为模型的Sora强势领先,但作为公司的OpenAI还远未接近赛事终点
从AI写歌的Suno.ai谈起:“内容协同创作”的定位和未来