全模态模型的多模态生成能力 | 谈GPT4o的原生图像生成

原创孔某人 2025-03-26 15:57 北京

我只能评价为：未来已来。

本来早上看到没有太多想法。但下午看了下发布会，并自己测了一下，感觉是个重要的功能进展，所以特地发一篇聊聊。

图像和图像的生成过程靠文字无法描述，我特地做了一个录屏。大家可以观看或自行测试。底部录像工具栏上有时间，总长2min。

图像生成过程似乎分为：

1、生成草稿；

2、逐“行”细化，并直接显示给用户（解除模糊遮罩），同时也在更新底部未锁定的部分。并且似乎已经生成部分也有细小改动。扫描过程不是匀速的，疑似在一些难生成的位置会卡一下。

3、完整扫描之后，对于图像整体大概还有一次润色，表现为细节增加。

我说下我的感受：

很明显图像质量相对于目前其他生图产品有代差，主要反应在图像细节和文字方面。

生图产品的各种瑕疵问题似乎直接就被解决了，全模态模型的能力恐怖如斯。

而且问题在于，这并不是生图特化的方案。GPT4o之前就已经交付了原生语音生成，而现在交付了原生图像生成。这种方式其实可以直接交付视频等所有其他模态。所有模态的内容，只要找一个方式序列化之后，感觉就按照这个序列化方式再生成就好。

2025年大概可以算是多模态生成元年。虽然大概还有很多其他title。

未来已来。我还有什么可说的呢？

（Gemini和豆包也都在产品中上线了生图能力，说实话都不错。但看了OpenAI这个之后，感觉似乎这是下一代的生图方案。）

本文题图由ChatGPT 4o生成。之前我刚切换到即梦生成题图不久，但看起来已经可以换到ChatGPT了。

交流与合作

如果希望和我交流讨论，或参与相关的讨论群，或者建立合作，请加微信，联系方式请点击 -> 专栏简介及联系方式 2024。

本文于2025.3.26 首发于微信公众号