虎嗅 04月17日 17:53
多模态大模型崛起:IP和创作者的新时代
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近两个月,多模态大模型发展迅猛,尤其在图像、视频生成方面效果显著。OpenAI的GPT-4o和Google的Veo 2等模型相继推出,展现了自回归模型在图像生成中的优势。国内的快手和字节跳动也在积极布局,发布了可灵2.0和豆包系列模型,进一步降低了创作门槛。随着创作工具的普及,创作者和IP生态将迎来发展机遇,内容创作、分发和变现的链条将被重构。

🖼️GPT-4o的图像生成功能基于自回归架构,在文字渲染、复杂指令执行、多轮对话编辑以及上下文和知识库利用等方面具有显著优势。它能够精准渲染图像中的文字,支持复杂指令,进行多轮编辑,并结合知识库提升图像质量。

🎬Google的Veo 2和Gemini Flash 2.0也采用了自回归模型,Veo 2支持4K视频生成和编辑功能,而Gemini Flash 2.0则提升了图像生成的可用性。自回归模型在捕捉上下文信息、实现更自然的生成效果方面具有优势。

📱国内快手和字节跳动也在积极布局多模态领域。快手的可灵2.0在视频和图像创作的可控生成与编辑能力上有所提升,字节跳动的豆包系列模型则在视频生成和汉字生成方面取得了进展,并开放给普通用户使用。

🌟多模态大模型降低了创作门槛,使得创作者能够通过简单的文本提示生成高质量的图像、视频和音频内容。这促进了IP生态的健康发展,经典角色可以通过AI“复活”在新场景中演绎,内容创作、分发和变现的链条将被重构。

在过去的2个月里,多模态大模型迎来了飞跃式的发展。虽然多模态对于语言模型智能的提升,目前还看不到,但是语言模型和多模态模型的融合,尤其是和图像、视频模型的融合,效果显著。随着创作生产力工具不断提升,未来创作者和IP生态,可能会迎来自己真正的大时代。

OpenAI GPT-4o文生图:基于自回归架构,实现真正的多模态统一

OpenAI于2025年3月25日正式推出了GPT-4o的图像生成功能,一时间吉卜力风刷屏朋友圈,OpenAI也被海量用户冲击的算力告急。GPT-4o的图像生成模型,是基于自回归的全新模型架构,相比于传统的基于扩散模型的图像生成,有着巨大的优势:

1. 精准渲染图像中的文字

GPT-4o在图像生成中成功攻克了文字渲染的难题,能够准确地在图像中呈现指定的文本内容。这使得用户可以轻松创建包含文字的图像,如菜单、邀请函和信息图等,满足多种设计需求。

2. 严格遵循复杂指令

GPT-4o能够理解并执行复杂的文本指令,支持多达10至20个不同元素的图像生成任务。这使得用户可以通过详细的描述,生成符合特定需求的图像内容,提升了创作的灵活性和精确性。

3. 多轮对话中的图像生成与编辑

GPT-4o支持在多轮对话中进行图像的生成和编辑,能够根据用户的反馈和修改建议,逐步优化图像内容。这为创作者提供了更高效的创作流程,使图像生成更加贴合用户的期望。

4. 利用上下文和知识库提升图像质量

GPT-4o在生成图像时,会结合其内置的知识库和对话上下文,作为灵感来源,提升图像的相关性和质量。这使得生成的图像更具现实感和逻辑性,满足更高层次的创作需求。

Google Veo 2与Gemini Flash 2.0:引领多模态生成新高度

Google在上个礼拜推出了Veo 2,能够根据文本提示生成高质量的视频内容,支持4K分辨率和多种电影风格的镜头效果。Veo 2还引入了inpainting和outpainting功能,允许用户对视频进行细致的编辑和扩展。此外,Google还发布了Gemini Flash 2.0 Image Generation,同样整合了自回归模型,极大提升了模型的可用性。

这一批多模态模型和2024年的Sora有什么不同?

最大区别,是自回归模型开始在图片生成中落地。通过逐步生成输出,自回归模型能够更好地捕捉上下文信息,实现更自然的生成效果。相比DiT架构,自回归有更强的序列建模能力、更好的生成过程灵活性与控制性、更高的生成过程的灵活性和更精确的控制性。同时,通过融合自回归和DiT扩散模型,也能综合DiT模型生成逼真度、全局图像质量的优势。

随着模型规模的扩大和训练数据的丰富,自回归模型将在生成质量和多模态融合方面继续取得突破,沿着scaling law,逐渐开始往短视频发展。今年更多是图像生成,2~3年可能就可以做到高可控的分钟级视频生成。2025年可能是真正意义上,内容生成领域AGI落地的元年。

国内的快手和字节也在多模态领域有比较多的动作:

快手可灵2.0:打造多模态视觉语言

昨天,快手发布了可灵2.0大师版,全面升级了视频及图像创作的可控生成与编辑能力,效果非常好。可灵也是目前当之无愧的视频生成的SOTA模型。

字节跳动豆包系列:推动多模态应用落地

除了快手,字节也是目前中国多模态模型的领军企业。豆包视频生成模型1.5版具备更长的视频生成能力,支持多角色演绎和方言转换。此外,豆包文生图模型2.1版本首次实现了精准生成汉字和一句话P图的产品化能力。这些模型的能力已通过即梦AI和豆包App开放给普通用户使用。

当创作工具不再有门槛,创作者和IP成了核心

多模态大模型的发展为创作者带来了前所未有的工具和平台,极大地降低了创作门槛。创作者可以通过简单的文本提示,生成高质量的图像、视频和音频内容,实现从概念到成品的快速转化。

随着模型对版权和内容安全的重视,创作者的原创内容将得到更好的保护,促进IP生态的健康发展。比如,字节就与上海电影展开了战略合作,而核心就是上海电影的《大闹天宫》《哪吒闹海》等众多经典IP。

创作工具的广泛普及,正在从根本上改变“谁能成为创作者”的定义。以往,一个创意从构想到上线往往需要多个角色的配合、复杂的流程和较高的成本门槛;现在,任何一个具备故事想法的人,都可以借助AI工具一步步构建自己的作品。这种创作民主化,不仅释放了大量的创意潜力,也在悄然推动“UGC→AIGC→U+AIGC”的范式演进。

在IP运营层面,多模态大模型也带来了“内容生命周期的延展”——经典角色可以通过AI“复活”在新场景中继续演绎。

简而言之,未来多模态大模型不只是“更好用的PS”或者“更聪明的剪辑工具”,而是会重构内容创作、分发和变现的整个链条。未来的创作者将不再是“单点作业”,而是掌握一套完整的AIGC生产力栈,配合着IP生态,创造巨大的商业价值。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态大模型 GPT-4o AI创作 IP生态
相关文章