等了许久的自研DiT视频生成大模型终于官宣，其实几个月前就开始做应用层的工程化链路，等ready后，就可以开放给用户使用 1. 媒体上看到的都是good case，但和用...

即刻AI圈子 2024年09月24日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

字节全新发布豆包AI视频模型，介绍其应用情况及存在问题，如与用户预期有差距、推理成本高等，也提及了其在视频编辑中的价值。

🎬字节发布的豆包AI视频模型虽能生成各类视频，但效果未必都好，且存在与用户真实创作生产力环境下预期的差距，如普通用户难以接受高频抽卡、写不好prompt等问题。

🌟该模型在视频编辑器中有一定价值，可生成AI底素材弥补用户素材缺失，进行效果包装，还能通过模板生态将少数创作者的创意变成大众玩法。

💸DiT的推理成本过高，每一次调用都需费用，在剪映Capcut的体量下，如何进行成本优化、定价策略及等待体验的处理是重要且繁杂的工作。

字节全新发布豆包AI视频模型 - 再见了Sora，你的时代过去了。

等了许久的自研DiT视频生成大模型终于官宣，其实几个月前就开始做应用层的工程化链路，等ready后，就可以开放给用户使用

1. 媒体上看到的都是good case，但和用户在真实创作生产力环境下的预期，依然存在一定的gap。比如普通用户很难接受高频的抽卡，尤其每次抽卡又慢又费钱，也写不好prompt

2. 大模型可以生成几乎任何的视频，但是很多视频效果都不一定好。所以需要找到适合的场景，来满足该场景下用户的预期，例如AI拥抱就是很好的玩法，希望还是让更多的人玩起来，通过聚集更多人的创意来演化出更复杂的内容，而不是少数AI圈内创作者的自嗨

3. 在视频编辑器里，视频生成模型的价值：1）AI底素材生成，弥补用户素材缺失；2）效果包装，比如做视频的风格化、局部重绘、两个视频之间的无缝转场，比如跟文字、贴纸等已有包装元素的叠加，就有了指数级增加的丰富效果；3）通过模板生态，把少数创作者的创意变成普适性的大众玩法，一键套用，形成全民热度

4. DiT的推理成本太高了，每一次调用都是钱，在剪映Capcut的体量下，如何做成本优化、定价策略、等待体验，都是很细很杂又很重要的活儿，时不时的卡资源就打爆了。当然更期待明年底层模型的推理成本可以降低，这样规模才会有真正量级上的突破

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签