普通人的AI自由 04月09日 17:50
2024视觉模型鏖战:谁在吆喝?谁在赚钱?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

2024年视觉多模态大爆发,AI生图进入下半场,视频生成群雄鏖战,3D生成有新思路,多模态理解进展慢但意义重大,商业化面临诸多挑战,创业公司仍有机会。

AI生图发展成熟,进入下半场,专业模型有商业空间。

AI视频生成竞争激烈,公司分商业流、整活流、技术流、收割流等流派。

AI 3D有视频延续和理解构建物理世界两个思路。

多模态理解进展慢,在广告推荐等领域有重要应用。

商业化需质量和效率达标,各领域面临不同挑战,创业公司有垂直化和低门槛两条路。

原创 Lian et Zian 2025-01-03 09:25 新加坡

世界模型 or 模拟器

太长不看版

•大语言模型是“学会语言”,视觉多模态模型要“学会物理”;但当前的视觉Diffusion模型最多是个“模拟器”

• AI生图进入下半场,视频生成卷出天际,3D生成曙光初现

• 多模态生成比LLM离商业变现更近:广告、电商、游戏、影视

• 融资不易,视频公司使出浑身解数:技术流、商业流、整活流

• 视频编辑巨头Adobe、字节-剪映默默等待收割

• 视觉模型不是Winner Takes All:“垂直化”、“低门槛”是创业公司的机会

• 多模态理解能力比多模态生成能力有更大意义:广告推荐 and more


Image: Explore - ArtStation


[作者]Lian, Sylvie, MK; [视觉] Tracy

正文

<1> 群雄鏖战的2024

2024年是视觉多模态大爆发的一年。

AI生图:真实感以假乱真,可控性商用成熟,竞争格局基本确定

AI作图最早始于2022年7-8月的Midjourney和Stable Diffusion。最开始阶段因为没有可控性,所以只有很少鬼畜整活玩家和先锋实验艺术家在使用

6个月之后,2023年2月发布的ControlNet让Diffusion Model开始变得可控;ComfyUI的出现让模型的产品化门槛大大降低,艺术家们可以自己上手体验了

1年之后,接着Adobe FireFly的发布,到了2023年下半年,AI作图开始进入商业应用领域

2年之后,2024年8月发布的Flux让生图“真实感”有了质的提升,商业应用基本成熟

现在AI生图的赛道已经基本稳定,且开源模型能力已经很强,所以在模型层次上颠覆生态已经非常困难。当前的“三足鼎立”各家都有特点,应该还可以持续一段时间。国内也是基本在用Flux和SD的开源模型做微调。


MidJourney、Flux、Stable Diffusion生图风格对比

可以说,AI生图已经进入“下半场”:模型可卷空间有限,重要的是场景的理解、客户的理解。比如:品牌propritery模型、室内装修模型、工业设计模型……这类专业模型仍然有大量商业空间。

AI视频:群雄鏖战,融资不易

从年初SORA宣传视频放出后,市场全面拥抱DiT (Diffusion Transformer) 架构,各家一路狂奔卷出天际。今年发布闭源基础模型的公司国内外就有十余家,这里面不只有创业公司,也有各家大厂。

我们也看到,各家不仅在模型技术上狂卷,PR上也非常用功:不仅各类技术榜单的刷榜已经偏离了实际应用体验,更是没有哪个自媒体可以中立完整呈现各家的水平。

模型究竟哪家好?最好的标准还是眼见为实:看各家做出视频的样子。这里面最中立完整的应该是腾讯的一篇学术文章和网站。确实,在大家狂卷的时候走“开源+测评”的方式,不失为一种聪明的选择,正所谓“打不过就做裁判”

https://ailab-cvc.github.io/VideoGen-Eval/index.html

在看了如此多的测评和PR稿之后,我尝试把各家公司分成几个流派:


商业流-搞钱
以搞钱为核心,核心竞争力在于场景和客户。技术能力主要在应用层上的调优和场景化,除了最头部的(e.g. Runway), 一般不会做大规模底层训练。这些公司当前主要发力在广告-电商领域:“可控性”、“可编辑性”、“真实性”是技术发力的主要方向。很多“虚拟人”、“虚拟主播”公司就是这一类。这一派虽然难以撑起太高的估值,但这样是最务实的做法。这些公司PR不是很多,赚到钱的都在闷声发财


Runaway act one demo

整活流-DAU
这一派公司是冲着投资人去的,为了冲高估值搞一些搞笑的花里胡哨功能。这类功能确实可以短期吸引用户,提高DAU,但几乎没有商业价值。当我们看到这类PR之后,如果短期内没有新融资或者务实的产品功能,那大概就知道公司快撑不下去了

Viggle的鬼畜视频

技术流-不差钱
这类公司只有背靠大厂才能实现:Google-Veo、OpenAI-Sora、快手-可灵……反正策略是先卷死别人再说。技术流公司主要的宣传方式是生成时间和画质,比如Google-Veo2已经卷到了2分钟-4K画质。

Google-Veo2 demo

收割流-反正钱都得我赚
创艺赛道不得不提的Bug级别公司其实是Adobe和剪映。AI生成确实好,但终究还是要回到视频剪辑的工作流里,而Adobe Premier和剪映作为功能巨多的视频剪辑软件,是很难被撼动的。我们已经看到,AI生图最多的钱还是Adobe赚到,AI视频也会一样。
10月Adobe在Pr里增加了“Generative Extend”功能,完美符合剪辑师的工作流。剪映则更加低调,悄悄上线了AI生图、生视频、生配乐、生贴纸、生艺术字、数字人等各种功能,能看到剪映想要全面集成AI功能的态度。除了上面两家之外,还可以一战的是收购了Leonado.ai的Canva。

Adobe视频补全

Image: 利维坦 公众号

AI 3D:视频增强 or 世界模型?

AI 3D是一个“朴素”的概念,但很多场景中我们并不需要“真3D”。因为3D是我们在头脑中“重建”的,而并不是眼睛得到的原始视觉信号。既然如此,在仅有视觉的场景中(如:游戏、VR),我们只需要重建人眼捕的视觉信号就好了,并不需要真正用泥巴捏出个造型(“物理建模”)。

于是,用AI做3D也是一样的:如果我们已经做出了符合物理运动规律的视频,只需要做一些双眼配适,自然就有3D了。所以当前AI-3D有两个思路:
<思路一>3D是视频的延续。只要视频模型足够好,配上合适的训练数据,就可以有3D能力,并不需要对于视频模型做大修改。这个思路是很多视频生成公司心照不宣,认为一步步做下去就会实现的方案。

<思路二>则需要理解和构建物理世界。仅仅靠视频的模拟是不够的,需要有其他类型的数据(e.g. 加速计、陀螺仪, etc.)、需要有其他类型的模型结构,来来让模型来真正“理解物理世界”。12月李飞飞World labs发布空间智能模型到现在一直没有详细的技术描述,但很可能是向着这个方向思考的。

李飞飞World labs demo

<2> “模拟器”还是“世界模型”?

到24年末为止,视觉生成的头部玩家在算法架构上都收敛到了DiT(Diffusion Transformer)架构。DiT主要解决的是生成高分辨率画面的问题,目前主流厂商既没有看到DiT的天花板,学界也还没有发明出其他被证实的更好架构。所以,最近半年的竞赛基本在算力和数据,算法层面的进展更多是微调。但一个我们必须面对的问题是:Diffusion模型是否真的能做到对于物理世界的理解,并通向“世界模型”?

在NLP领域,OpenAI用GPT模型给出了“更好的生成就是更好的理解”的深刻见解。但在视觉领域是否也同样能用一个做法还是未知数。目前成熟的做法是用多模态理解语言模型去做大量精细的标注,Diffusion模型再去学习如何生成。因此,“理解”的任务其实是大语言模型承担的。

但这里的问题是明显的:通过语言来“理解”图像本来就是严重的信息缺失。我们可以画出画中的细节,但却无法通过语言来描述出所有细节;因此,寄希望通过“语言描述”来指导视觉生成,是永远都无法给到模型足够信息的。
那么,
是不是视觉理解-视觉生成其实需要一个“端到端模型”?(参考Tesla的FSD自动驾驶的逻辑,模型的输入输出需要“端到端”,才能确保信息不丢失,取得代际提升的效果)

我们看到当前的AI视觉内容其实基本都不符合物理规律:因为这些模型并没有足够的数据去学习这些物理规律!就像OpenAI发布Sora的技术报告标题是Video generation models as world simulators(视频生成模型作为世界模拟器)。我朋友们目前的普遍观点也是“并没有看到扩散模型可以通往理解/智慧;扩散模型最多是'世界模拟器'。”(当然也要批判地看这句话)


Image: 'Desire Flips, Mind's Persistence'



多模态理解:比多模态生成更重要

和视觉生成相比,多模态理解的进展要慢得多。将近一年以来,视频理解基本只有Google的Gemini可以做到。到了2024年12月,OpenAI o1支持基于多模态理解的长推理,月之暗面的k1和阿里通义刚刚开源的QVQ也很快跟上。李飞飞和谢赛宁的新研究提出了VSI-Bench,可以用来检验模型的空间理解能力,也就是通过看视频,来推理和理解其中的空间关系,比如看一个room tour的视频来估计房间的面积。这种推理在人脑中是不经过语言的,因此现在依赖语言的视觉理解模型的学习的数据中就很少有这部分能力。


VSI bench论文 https://arxiv.org/pdf/2412.14171


视觉理解一旦有明显进展(都不用做到80分),就是万亿级市场。视觉理解最大的应用在我们看不到的地方:广告推荐

和大语言模型相比,当前的广告模型就是“弱鸡”,所谓的“千人千面”其实还只是初级阶段。我们虽然看了几分钟的视频,但广告模型看到的仅仅是几十个“标签”;它连视频都没看过,却要根据这几个有限的标签来给我推荐可能喜欢的商品,这个难度实在太高了!

广告领域中使用AI最明显的是“生成式召回”,基本原理就是让大语言模型扩写/改写一下上面的标签,所以效果还很有限。但一旦有了“多模态理解”的能力,广告模型就可以“看到”我看到过的图片和视频,直接理解(而不是通过标签)并实时生成广告。这是代际提升

当然,这种新的范式面临很多技术、工程以及商业模式、运营方式的挑战……篇幅所限,欢迎线下来撩。

Image from pinterest.com

<3> 商业化:触手可及还是海市蜃楼

视觉作为一种广告电商、影视、游戏最重要的呈现形式,商业化路径是非常清晰的。以及,由于“审美”本身的多重定义,以及各种客户的多种qipa诉求,视觉模型其实有很多不大不小的细分商业场景,也给创业公司留下了更多机会。

商业化=质量×效率

• 质量是画面的美学、清晰度、主体一致性

• 效率是“抽卡”成功率、可编辑性

只有当质量和效率都达到标准的时候,才能实现商业化。

广告电商:“素材质量”是商业化的重大阻碍

广告需要尽可能真实反应商品的特点,才能起到有效宣传效果。此时,“真实”有了一个具体的参照物,它的尺寸、材质、颜色、重量、交互等等都是判断真实的标准,很容易出现“买家秀”和“卖家秀”的问题。

对于“品牌”商品,“品牌调性”也是广告中的重要元素。品牌通过一致的视觉风格加深消费者印象,传达一贯的品牌理念与消费者产生共鸣,从而增强用户粘性。“品牌调性”是一种感觉,较难用语言去精准描述,也就很难被模型学习。

AI生图能够大规模商业化,主要是因为真实性上的不足可以用“P图”来弥补,比较常见的做法是将实物图P进AI生成的图片中,即提高了生产效率,也保证了质量。


MAYBACH  AI广告

影视:“可编辑性”是中短期的商业化方向

受限于视频的时长,AI直接生成视频用于影视剧几乎没办法实现。一个1分钟的视频不是6个10秒视频的简单叠加,还需要考虑剧情的合理性、人物主体的一致性等问题,使长视频的生成难度较短视频而言指数提升。

因此短期内,AI在影视领域的可以解决的需求主要是在“编辑”,例如Runway One Act,在人工拍摄的视频上做风格的变化;Adobe Pr的Generative Extend,补充两段素材之间的空缺几秒;Pika 2.0的“Ingredient”功能,可以实现局部元素替换。

从编辑的角度来看,视频和图像有本质区别:图像很早就被拆成各个图层-通道,每个图层都可以进行编辑;但视频被时间轴紧密的粘在一起而无法编辑。比如,把狗子从拆家视频中独立出来再编辑,就没法再放回去:这个狗子不是悬浮在空中就是被沙发劈成两半……在这里,其实GenAI是可以产生革命性变化的:视频的分图层编辑。说不定明年就能做到了呢~


AIGC原创奇幻微短剧《山海奇镜之劈波斩浪》

游戏:“素材生成”解放生产力,“实时生成”如何开创游戏新玩法?

素材生成已相对成熟,游戏角色、游戏特效、游戏场景、甚至游戏操作界面,都能够使用AI生成。且素材生成主要应用在游戏设计开发的前期,以静态图片和局部动作为主,在质量上已能达到商用标准。虽然只是游戏生产的很小一个环节,AI还是能在前期提供不少创意、节省成本。

实时生成是一直被大家寄予厚望的AI视频生成的应用场景,从GameNGen到Oasis、GameGen-X、Genie 2,这个目标在逐步逼近。但值得思考的是,“无限流”能给玩家带来什么新的体验?游戏主要是通过设计目标、奖励、挑战等机制来满足玩家的成就感,如果“实时生成”只能拓展原有游戏玩法的地图边界、增加NPC数量和故事剧情,其实还是个“素材工具”。期待玩法上的创新。

<4> 创业公司路在何方?

回归这篇文章的起点,我如果做一家AI视频创业公司,还有出路吗?

24年的下半年确实很难:大厂狂卷的市场、跌入冰点的融资……

但其实,我们还是可以做很多选择;多模态的市场并不是Winner takes all。

这里简单写一下思考:

做收入(可用功能)vs 做DAU(整活):要做收入;做DAU只是为了忽悠投资人,没有商业意义。

->风格化 vs 真实:前者可以赚快钱,可以做动漫细分,但市场很小;大的赚钱应用一定是真实视频,但要越过“恐怖谷”的门槛。

->生成 vs 换:技术不太强的时候,可以先通过换脸-换身体-换装来猥琐发育:满足客户需求才能赚钱。

->应用模型 vs 底层模型:除非是超级大佬,创业公司基本没有做底层模型的份。对于大多数公司来说,模型技术能力不能成为护城河;产品和客户才是护城河。

->单功能 vs package:创业公司一定要在一个功能上做到行业第一,且保持2个月以上,否则没有机会;做10个一般功能不如做一个SOTA功能。

->行业能力 vs 通用能力:能在行业里做细分,就不要做通用,免得被大厂卷死。


具体来讲,可能有这两条路:

2B“垂直化”。在广告电商市场,对“真实感”的要求催生出众多细分领域,例如服装品类追求“布料材质”、家居领域追求“尺寸”和“触感”,不同细分领域需要特定的数据进行训练,是创业公司的机会所在。

另一个垂直方向是“品牌模型”,需要与品牌深入合作,整理品牌历史数据、了解品牌文化、由品牌设计师亲自标注数据。由于“品牌模型”是品牌的核心资产,和巨头合作存在潜在的风险,创业公司在服务和安全性上都一定优势。

2C“低门槛”。Adobe、Capcut作为成熟软件,操作界面基本不会有根本上的变化,对于小白用户还是过于复杂了,主要还是面向对可控性要求较高的专业用户。而“AI生成”给了更多用户创作的能力,因此也需要更简单、傻瓜式的“面向AI生成”的交互方式。

最后,抓住客户是活下去的王道。



Image: Midjourney Official selection


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI视觉 多模态 商业化 创业公司 视频生成
相关文章