原创 孔某人 2025-03-26 15:57 北京
我只能评价为:未来已来。
本来早上看到没有太多想法。但下午看了下发布会,并自己测了一下,感觉是个重要的功能进展,所以特地发一篇聊聊。
图像和图像的生成过程靠文字无法描述,我特地做了一个录屏。大家可以观看或自行测试。底部录像工具栏上有时间,总长2min。
图像生成过程似乎分为:
1、生成草稿;
2、逐“行”细化,并直接显示给用户(解除模糊遮罩),同时也在更新底部未锁定的部分。并且似乎已经生成部分也有细小改动。扫描过程不是匀速的,疑似在一些难生成的位置会卡一下。
3、完整扫描之后,对于图像整体大概还有一次润色,表现为细节增加。
我说下我的感受:
很明显图像质量相对于目前其他生图产品有代差,主要反应在图像细节和文字方面。
生图产品的各种瑕疵问题似乎直接就被解决了,全模态模型的能力恐怖如斯。
而且问题在于,这并不是生图特化的方案。GPT4o之前就已经交付了原生语音生成,而现在交付了原生图像生成。这种方式其实可以直接交付视频等所有其他模态。所有模态的内容,只要找一个方式序列化之后,感觉就按照这个序列化方式再生成就好。
2025年大概可以算是多模态生成元年。虽然大概还有很多其他title。
未来已来。我还有什么可说的呢?
(Gemini和豆包也都在产品中上线了生图能力,说实话都不错。但看了OpenAI这个之后,感觉似乎这是下一代的生图方案。)
本文题图由ChatGPT 4o生成。之前我刚切换到 即梦 生成题图不久,但看起来已经可以换到ChatGPT了。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 专栏简介 及 联系方式 2024。
本文于2025.3.26 首发于微信公众号