量子位智库 | 公众号 AI123All
2024年,AI视频生成是最受关注的领域之一,OpenAI在今年2月发布Sora,推动视频生成技术出圈的的同时也催化了产业的发展,目前AI视频生成现状如何,有哪些趋势和特点?量子位智库将在《AI视频生成研究报告》中回答这些问题,报告将分为技术侧、应用侧、玩家格局三个部分进行讨论,核心观点包括:
- 视频生成技术正在从检索生成、局部生成走向基于提示词的全量生成
- 视频生成模型的能力将在算力驱动下快速进步,解锁更多应用空间
- 推理成本将持续下降,生成速度进一步提高,推动应用层和商业化发展
- 视频生成模型不仅限于生成视频内容,长期将统一多模态的生成和理解,成为通往AGI的重要路径
- AI视频生成正在赋能传统视频工作流,目前主要价值在于素材生成环节
- 新一代的AI视频工作流正在萌生,将整合音视频创作全流程,提高创作效率
- …
DiT和语言模型是目前最受关注的两条技术路径。OpenAI发布Sora把Diffusion Transformer(DiT)推向了主流应用,具体而言是用Transformer替代传统扩散模型中的卷积神经网络U-Net,随后大量视频生成玩家开始跟进DiT路线并取得了效果上的进步。单纯基于语言模型的路线是业界关注的另一条路径,可以更好地融合不同的模态,且可扩展性强,未来可能会有新的进展。
在训练侧,视频大模型的进步同样遵循Scaling Law,需要在Scalable的模型架构上不断增加数据和算力来提升模型能力。在推理侧,需要算力成本的下降和充足的供给来支撑下游的应用和商业化。我们正在看到GPU的性能提升和领军玩家在算力基建上的巨额投入,这将成为未来视频模型发展和应用的根本驱动力。
在自然语言处理领域,大语言模型开启了技术的范式转移,在诸多语言任务上远超传统的NLP技术。类似地,视频生成大模型可能在计算机视觉领域有同样的效果,在各类视觉信息的理解和生成上占据主导地位。长期看来,视频生成模型有更宏大的愿景,将成为世界模型、AGI的重要组成部分。
以同属视频内容场景的电商直播数字人为例,据新壹科技雷涛介绍,从成本角度看,电商主播的成本在每小时300-500元左右,电商数字人主播的成本在每小时数元,成本可以降低1-2个数量级,从可用性的角度看,数字人在电商垂类场景下可以很好地满足需求,主要负责关于商品销售的相关问答,既可以保证回答的正确性,也有容错和不应答的空间。此外目前用户在电商直播间的平均停留时间仅约1分钟,对于模型长时间的生成效果要求较低,现有数字人技术可以满足用户在短时间购物体验需求,这是一个技术匹配市场的案例。
就各类视频内容而言,视频生成已经可以实现不同幅度的成本削减,对于通用的文生视频、图生视频功能,目前已经可以看到少量的应用案例。但整体而言应用仍处在早期阶段。目前主要的制约因素依然是模型能力,生成效果和可控性难以满足商用需求,且需要专业的提示词交互能力以及相应的后期处理。但我们预期模型能力将持续提升,相关产品、交互形式将更加完善,可控性将在模型层和产品层两个方面得到提升。
我们认为未来视频生成的普及需要在工作流层面的创新和成熟。现阶段AI视频的工作流比较碎片化,需要在多个应用之间穿插,创作摩擦较大,例如先在Midhourney生成指导图,再使用视频应用的图生视频功能,再进行后期的剪辑和配音。未来视频生成领域在工作流层面的创新将主要包括两个方向,一是精细化生成,可以对视频中各类细节进行控制,二是流程化整合,以减少创作的摩擦和阻力,通过一站式服务提高效率。目前市场上已有一些相关方向的尝试,但受限于基础模型模型的能力,整体生成效果依然欠佳,但我们预计随着模型能力的进步局限性将逐步缓解。
目前视频生成领域主要有5类玩家,包括OpenAI、互联网公司、技术创业公司、内容工具软件以及垂类创业公司。
从模型层来看:各家的竞争力取决于规模和投入度,互联网公司、技术创业公司及内容工具平台的头部玩家在模型层基本处于相近水平,例如谷歌Veo,Runway Gen-3,快手可灵,预计Adobe的Firefly(视频模型正在研发中)以及Midjourney(视频模型正在研发中)也会达到类似水平。竞争格局上看,考虑到1)内容生成的多样性需求、文化差异,2)类似语言模型格局,B端会保留多个选择,3)但视频基础模型的的进入门槛高(算力、数据、人才等),基础模型层不会一家独大,但也不会过于碎片,海外和本土可能各有数家基础模型提供商占据市场的大部分份额。对于内容软件和垂类创业公司,基础模型对于多数内容工具软件和垂类创业公司并不是核心业务,主要还是业务导向匹配用户需求,愿意在自己的软件中外接其他模型或者使用微调后的模型,数据基础模型进步的受益方,不会在基础模型层和大公司和专业公司竞争。
从产品层来看:目前大部分视频生成应用的产品设计简单,也比较同质化,包括文生视频、图生视频以及一些相应的控制功能,例如时长选择、风格选择、镜头控制、动态笔刷等。预计未来将会有更多在产品层的创新应用,主要是可控生成和流程整合两个方面。关于生成内容的可控性主要分两个部分,一部分是基础模型的能力,包括指令遵循能力,生成效果的一致性和稳定性;另一部分是基于外部工具或工作流来提高可控性,例如分图层的生成、编辑、组合,片段间场景、人物一致性的控制等,这一部分有望通过产品创新来改进。流程整合主要是整合包括文本、视频、音频等视频制作的全流程功能,目前大部分视频生成工具缺少音频字幕、后期编辑等视频常用功能,难以满足用户需求,在未来将成为重要的改进方向。技术创业公司的产品化速度较快,迭代更灵活,且拥有模型层能力,在产品层更有优势。
从场景层来看:除垂类创业公司以外,其他玩家都未找到明确的应用场景,大多在实验和探索阶段,C端主要还是一些Prosumer(专业创作者)比如自媒体创作者、艺术家等,B端客户由于模型效果差、可控性弱、和技术接受度等原因渗透较少,只有少量单点的案例。大场景或PMF的确认可能需要等待模型能力进步、产品的打磨、和推理成本的下降,需要一段时间的摸索。
互联网公司:互联网公司的资源充足,从算力上来看,头部互联网公司一般有自建云服务,算力和基础设施层面优势比较大。从数据上来看,有视频内容平台的互联网公司优势较大,例如字节跳动、快手等公司,视频内容的推荐系统积累大量的视频数据,标注质量较好,分类细致准确,可以大幅助力模型训练。目前国内互联网在模型层和产品层追赶速度较快,海外互联网公司由于内容安全和的数据版权问题受到掣肘较大,产品化进展相对缓慢,但实验性项目和前沿研究较多。
内容工具软件:不同玩家的差异较大,海外巨头如Adobe的竞争力较强,会同时发力模型层和产品层,自研了生成式AI的创意工具Firefly,目前正在训练视频生成模型、也会开放外接其他模型。国内的中小玩家在模型层不会追求最好、最大模型与大玩家竞争,主要机会在生成内容特色化、本土化等用户需求,同时对外接其他基础模型持开放态度。内容工具软件在模型层的主要优势在于数据的积累,例如旗下的版权库有大量高质量的视觉内容,以及长期运营中积累的用户上传的视频内容。此外内容工具软件在不同程度上有一定用户基础(从专业级用户到普通用户)和场景优势。
技术创业公司:数据和算力资源上相对互联网公司没有优势,但产品迭代速度较快,更加灵活,关键在于团队的技术能力和产品能力。目前海外头部创业公司主要是Runway和Pika,团队人才密度高,融资额度大,且背靠硅谷、资方背景亮眼,产品投放市场较早,已经过2-3轮版本迭代,有一定的用户社区。本土的技术创业公司主要分为视频生成创业公司和大模型技术创业公司,少量公司有产品面世但正在逐渐投放市场,大部分还在产品打磨阶段,整体上相比海外头部公司处于追赶阶段,我们预计年内大部分公司都会将产品投放市场。
垂类创业公司:目前垂类创业公司的场景主要在视频营销领域,可以快速实现商业化落地,客户主要以各类商家为主。模型层和主流讨论的文生视频差异较大,不追求通用化、创意化的生成效果,主要强调在营销场景下的可控性和稳定性,并针对此类功能做专项的模型增强。另外技术上不一定需要走生成式AI的路线(基于扩散模型、Transformer),基于多模态机器学习、素材的检索生成组合也在很多场景下更能满足需求,但生成式AI可作为素材补充。垂类创业公司和核心优势在于对于营销业务的理解,包括营销视频ROI最大化,跨平台运营以及垂类场景的数据等,对行业knowhow有较高要求。
完整报告下载地址:
https://jkhbjkhb.feishu.cn/wiki/W5D7wuDcbiPXDLkaRLQcAJpOn8f?fromScene=spaceOverview