在过去的2个月里,多模态大模型迎来了飞跃式的发展。虽然多模态对于语言模型智能的提升,目前还看不到,但是语言模型和多模态模型的融合,尤其是和图像、视频模型的融合,效果显著。随着创作生产力工具不断提升,未来创作者和IP生态,可能会迎来自己真正的大时代。
OpenAI GPT-4o文生图:基于自回归架构,实现真正的多模态统一
OpenAI于2025年3月25日正式推出了GPT-4o的图像生成功能,一时间吉卜力风刷屏朋友圈,OpenAI也被海量用户冲击的算力告急。GPT-4o的图像生成模型,是基于自回归的全新模型架构,相比于传统的基于扩散模型的图像生成,有着巨大的优势:
1. 精准渲染图像中的文字
GPT-4o在图像生成中成功攻克了文字渲染的难题,能够准确地在图像中呈现指定的文本内容。这使得用户可以轻松创建包含文字的图像,如菜单、邀请函和信息图等,满足多种设计需求。
2. 严格遵循复杂指令
GPT-4o能够理解并执行复杂的文本指令,支持多达10至20个不同元素的图像生成任务。这使得用户可以通过详细的描述,生成符合特定需求的图像内容,提升了创作的灵活性和精确性。
3. 多轮对话中的图像生成与编辑
GPT-4o支持在多轮对话中进行图像的生成和编辑,能够根据用户的反馈和修改建议,逐步优化图像内容。这为创作者提供了更高效的创作流程,使图像生成更加贴合用户的期望。
4. 利用上下文和知识库提升图像质量
GPT-4o在生成图像时,会结合其内置的知识库和对话上下文,作为灵感来源,提升图像的相关性和质量。这使得生成的图像更具现实感和逻辑性,满足更高层次的创作需求。
Google Veo 2与Gemini Flash 2.0:引领多模态生成新高度
Google在上个礼拜推出了Veo 2,能够根据文本提示生成高质量的视频内容,支持4K分辨率和多种电影风格的镜头效果。Veo 2还引入了inpainting和outpainting功能,允许用户对视频进行细致的编辑和扩展。此外,Google还发布了Gemini Flash 2.0 Image Generation,同样整合了自回归模型,极大提升了模型的可用性。
这一批多模态模型和2024年的Sora有什么不同?
最大区别,是自回归模型开始在图片生成中落地。通过逐步生成输出,自回归模型能够更好地捕捉上下文信息,实现更自然的生成效果。相比DiT架构,自回归有更强的序列建模能力、更好的生成过程灵活性与控制性、更高的生成过程的灵活性和更精确的控制性。同时,通过融合自回归和DiT扩散模型,也能综合DiT模型生成逼真度、全局图像质量的优势。
随着模型规模的扩大和训练数据的丰富,自回归模型将在生成质量和多模态融合方面继续取得突破,沿着scaling law,逐渐开始往短视频发展。今年更多是图像生成,2~3年可能就可以做到高可控的分钟级视频生成。2025年可能是真正意义上,内容生成领域AGI落地的元年。
国内的快手和字节也在多模态领域有比较多的动作:
快手可灵2.0:打造多模态视觉语言
昨天,快手发布了可灵2.0大师版,全面升级了视频及图像创作的可控生成与编辑能力,效果非常好。可灵也是目前当之无愧的视频生成的SOTA模型。
字节跳动豆包系列:推动多模态应用落地
除了快手,字节也是目前中国多模态模型的领军企业。豆包视频生成模型1.5版具备更长的视频生成能力,支持多角色演绎和方言转换。此外,豆包文生图模型2.1版本首次实现了精准生成汉字和一句话P图的产品化能力。这些模型的能力已通过即梦AI和豆包App开放给普通用户使用。
当创作工具不再有门槛,创作者和IP成了核心
多模态大模型的发展为创作者带来了前所未有的工具和平台,极大地降低了创作门槛。创作者可以通过简单的文本提示,生成高质量的图像、视频和音频内容,实现从概念到成品的快速转化。
随着模型对版权和内容安全的重视,创作者的原创内容将得到更好的保护,促进IP生态的健康发展。比如,字节就与上海电影展开了战略合作,而核心就是上海电影的《大闹天宫》《哪吒闹海》等众多经典IP。
创作工具的广泛普及,正在从根本上改变“谁能成为创作者”的定义。以往,一个创意从构想到上线往往需要多个角色的配合、复杂的流程和较高的成本门槛;现在,任何一个具备故事想法的人,都可以借助AI工具一步步构建自己的作品。这种创作民主化,不仅释放了大量的创意潜力,也在悄然推动“UGC→AIGC→U+AIGC”的范式演进。
在IP运营层面,多模态大模型也带来了“内容生命周期的延展”——经典角色可以通过AI“复活”在新场景中继续演绎。
简而言之,未来多模态大模型不只是“更好用的PS”或者“更聪明的剪辑工具”,而是会重构内容创作、分发和变现的整个链条。未来的创作者将不再是“单点作业”,而是掌握一套完整的AIGC生产力栈,配合着IP生态,创造巨大的商业价值。