原创 Lian et Zian 2025-01-03 09:25 新加坡
世界模型 or 模拟器
•大语言模型是“学会语言”,视觉多模态模型要“学会物理”;但当前的视觉Diffusion模型最多是个“模拟器”
• AI生图进入下半场,视频生成卷出天际,3D生成曙光初现
• 多模态生成比LLM离商业变现更近:广告、电商、游戏、影视
• 融资不易,视频公司使出浑身解数:技术流、商业流、整活流
• 视频编辑巨头Adobe、字节-剪映默默等待收割
• 视觉模型不是Winner Takes All:“垂直化”、“低门槛”是创业公司的机会
• 多模态理解能力比多模态生成能力有更大意义:广告推荐 and more
[作者]Lian, Sylvie, MK; [视觉] Tracy
正文
<1> 群雄鏖战的2024
AI作图最早始于2022年7-8月的Midjourney和Stable Diffusion。最开始阶段因为没有可控性,所以只有很少鬼畜整活玩家和先锋实验艺术家在使用
6个月之后,2023年2月发布的ControlNet让Diffusion Model开始变得可控;ComfyUI的出现让模型的产品化门槛大大降低,艺术家们可以自己上手体验了
1年之后,接着Adobe FireFly的发布,到了2023年下半年,AI作图开始进入商业应用领域
2年之后,2024年8月发布的Flux让生图“真实感”有了质的提升,商业应用基本成熟
现在AI生图的赛道已经基本稳定,且开源模型能力已经很强,所以在模型层次上颠覆生态已经非常困难。当前的“三足鼎立”各家都有特点,应该还可以持续一段时间。国内也是基本在用Flux和SD的开源模型做微调。
MidJourney、Flux、Stable Diffusion生图风格对比
可以说,AI生图已经进入“下半场”:模型可卷空间有限,重要的是场景的理解、客户的理解。比如:品牌propritery模型、室内装修模型、工业设计模型……这类专业模型仍然有大量商业空间。
AI视频:群雄鏖战,融资不易
我们也看到,各家不仅在模型技术上狂卷,PR上也非常用功:不仅各类技术榜单的刷榜已经偏离了实际应用体验,更是没有哪个自媒体可以中立完整呈现各家的水平。
模型究竟哪家好?最好的标准还是眼见为实:看各家做出视频的样子。这里面最中立完整的应该是腾讯的一篇学术文章和网站。确实,在大家狂卷的时候走“开源+测评”的方式,不失为一种聪明的选择,正所谓“打不过就做裁判”。
https://ailab-cvc.github.io/VideoGen-Eval/index.html
以搞钱为核心,核心竞争力在于场景和客户。技术能力主要在应用层上的调优和场景化,除了最头部的(e.g. Runway), 一般不会做大规模底层训练。这些公司当前主要发力在广告-电商领域:“可控性”、“可编辑性”、“真实性”是技术发力的主要方向。很多“虚拟人”、“虚拟主播”公司就是这一类。这一派虽然难以撑起太高的估值,但这样是最务实的做法。这些公司PR不是很多,赚到钱的都在闷声发财。
整活流-DAU
这一派公司是冲着投资人去的,为了冲高估值搞一些搞笑的花里胡哨功能。这类功能确实可以短期吸引用户,提高DAU,但几乎没有商业价值。当我们看到这类PR之后,如果短期内没有新融资或者务实的产品功能,那大概就知道公司快撑不下去了。
技术流-不差钱
这类公司只有背靠大厂才能实现:Google-Veo、OpenAI-Sora、快手-可灵……反正策略是先卷死别人再说。技术流公司主要的宣传方式是生成时间和画质,比如Google-Veo2已经卷到了2分钟-4K画质。
收割流-反正钱都得我赚
创艺赛道不得不提的Bug级别公司其实是Adobe和剪映。AI生成确实好,但终究还是要回到视频剪辑的工作流里,而Adobe Premier和剪映作为功能巨多的视频剪辑软件,是很难被撼动的。我们已经看到,AI生图最多的钱还是Adobe赚到,AI视频也会一样。
10月Adobe在Pr里增加了“Generative Extend”功能,完美符合剪辑师的工作流。剪映则更加低调,悄悄上线了AI生图、生视频、生配乐、生贴纸、生艺术字、数字人等各种功能,能看到剪映想要全面集成AI功能的态度。除了上面两家之外,还可以一战的是收购了Leonado.ai的Canva。
Adobe视频补全
Image: 利维坦 公众号
AI 3D:视频增强 or 世界模型?
<思路一>3D是视频的延续。只要视频模型足够好,配上合适的训练数据,就可以有3D能力,并不需要对于视频模型做大修改。这个思路是很多视频生成公司心照不宣,认为一步步做下去就会实现的方案。
<2> “模拟器”还是“世界模型”?
那么,是不是视觉理解-视觉生成其实需要一个“端到端模型”?(参考Tesla的FSD自动驾驶的逻辑,模型的输入输出需要“端到端”,才能确保信息不丢失,取得代际提升的效果)
多模态理解:比多模态生成更重要
<3> 商业化:触手可及还是海市蜃楼
商业化=质量×效率
MAYBACH AI广告
影视:“可编辑性”是中短期的商业化方向
受限于视频的时长,AI直接生成视频用于影视剧几乎没办法实现。一个1分钟的视频不是6个10秒视频的简单叠加,还需要考虑剧情的合理性、人物主体的一致性等问题,使长视频的生成难度较短视频而言指数提升。
因此短期内,AI在影视领域的可以解决的需求主要是在“编辑”,例如Runway One Act,在人工拍摄的视频上做风格的变化;Adobe Pr的Generative Extend,补充两段素材之间的空缺几秒;Pika 2.0的“Ingredient”功能,可以实现局部元素替换。
从编辑的角度来看,视频和图像有本质区别:图像很早就被拆成各个图层-通道,每个图层都可以进行编辑;但视频被时间轴紧密的粘在一起而无法编辑。比如,把狗子从拆家视频中独立出来再编辑,就没法再放回去:这个狗子不是悬浮在空中就是被沙发劈成两半……在这里,其实GenAI是可以产生革命性变化的:视频的分图层编辑。说不定明年就能做到了呢~
AIGC原创奇幻微短剧《山海奇镜之劈波斩浪》
游戏:“素材生成”解放生产力,“实时生成”如何开创游戏新玩法?
素材生成已相对成熟,游戏角色、游戏特效、游戏场景、甚至游戏操作界面,都能够使用AI生成。且素材生成主要应用在游戏设计开发的前期,以静态图片和局部动作为主,在质量上已能达到商用标准。虽然只是游戏生产的很小一个环节,AI还是能在前期提供不少创意、节省成本。
实时生成是一直被大家寄予厚望的AI视频生成的应用场景,从GameNGen到Oasis、GameGen-X、Genie 2,这个目标在逐步逼近。但值得思考的是,“无限流”能给玩家带来什么新的体验?游戏主要是通过设计目标、奖励、挑战等机制来满足玩家的成就感,如果“实时生成”只能拓展原有游戏玩法的地图边界、增加NPC数量和故事剧情,其实还是个“素材工具”。期待玩法上的创新。
<4> 创业公司路在何方?
回归这篇文章的起点,我如果做一家AI视频创业公司,还有出路吗?
24年的下半年确实很难:大厂狂卷的市场、跌入冰点的融资……
但其实,我们还是可以做很多选择;多模态的市场并不是Winner takes all。
这里简单写一下思考:
做收入(可用功能)vs 做DAU(整活):要做收入;做DAU只是为了忽悠投资人,没有商业意义。
->风格化 vs 真实:前者可以赚快钱,可以做动漫细分,但市场很小;大的赚钱应用一定是真实视频,但要越过“恐怖谷”的门槛。
->生成 vs 换:技术不太强的时候,可以先通过换脸-换身体-换装来猥琐发育:满足客户需求才能赚钱。
->应用模型 vs 底层模型:除非是超级大佬,创业公司基本没有做底层模型的份。对于大多数公司来说,模型技术能力不能成为护城河;产品和客户才是护城河。
->单功能 vs package:创业公司一定要在一个功能上做到行业第一,且保持2个月以上,否则没有机会;做10个一般功能不如做一个SOTA功能。
->行业能力 vs 通用能力:能在行业里做细分,就不要做通用,免得被大厂卷死。
具体来讲,可能有这两条路:
2B“垂直化”。在广告电商市场,对“真实感”的要求催生出众多细分领域,例如服装品类追求“布料材质”、家居领域追求“尺寸”和“触感”,不同细分领域需要特定的数据进行训练,是创业公司的机会所在。
另一个垂直方向是“品牌模型”,需要与品牌深入合作,整理品牌历史数据、了解品牌文化、由品牌设计师亲自标注数据。由于“品牌模型”是品牌的核心资产,和巨头合作存在潜在的风险,创业公司在服务和安全性上都一定优势。
2C“低门槛”。Adobe、Capcut作为成熟软件,操作界面基本不会有根本上的变化,对于小白用户还是过于复杂了,主要还是面向对可控性要求较高的专业用户。而“AI生成”给了更多用户创作的能力,因此也需要更简单、傻瓜式的“面向AI生成”的交互方式。
最后,抓住客户是活下去的王道。
Image: Midjourney Official selection