字节全新发布豆包AI视频模型 - 再见了Sora,你的时代过去了。
等了许久的自研DiT视频生成大模型终于官宣,其实几个月前就开始做应用层的工程化链路,等ready后,就可以开放给用户使用
1. 媒体上看到的都是good case,但和用户在真实创作生产力环境下的预期,依然存在一定的gap。比如普通用户很难接受高频的抽卡,尤其每次抽卡又慢又费钱,也写不好prompt
2. 大模型可以生成几乎任何的视频,但是很多视频效果都不一定好。所以需要找到适合的场景,来满足该场景下用户的预期,例如AI拥抱就是很好的玩法,希望还是让更多的人玩起来,通过聚集更多人的创意来演化出更复杂的内容,而不是少数AI圈内创作者的自嗨
3. 在视频编辑器里,视频生成模型的价值:1)AI底素材生成,弥补用户素材缺失;2)效果包装,比如做视频的风格化、局部重绘、两个视频之间的无缝转场,比如跟文字、贴纸等已有包装元素的叠加,就有了指数级增加的丰富效果;3)通过模板生态,把少数创作者的创意变成普适性的大众玩法,一键套用,形成全民热度
4. DiT的推理成本太高了,每一次调用都是钱,在剪映Capcut的体量下,如何做成本优化、定价策略、等待体验,都是很细很杂又很重要的活儿,时不时的卡资源就打爆了。当然更期待明年底层模型的推理成本可以降低,这样规模才会有真正量级上的突破