孔某人的低维认知 04月09日 17:50
全模态模型的多模态生成能力 | 谈GPT4o的原生图像生成
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

作者介绍了对图像生成的体验,认为其是重要功能进展。图像生成过程分三步,质量有代差。GPT4o交付原生图像生成,2025年可算多模态生成元年,ChatGPT 4o生成题图表现不错。

🎬图像生成过程分为生成草稿、逐“行”细化、整体润色

💯图像质量相对于其他生图产品有代差,细节和文字方面表现好

🌟GPT4o交付原生图像生成,可按序列化方式生成多模态内容

📱ChatGPT 4o生成的题图不错,作者考虑更换题图来源

原创 孔某人 2025-03-26 15:57 北京

我只能评价为:未来已来。

本来早上看到没有太多想法。但下午看了下发布会,并自己测了一下,感觉是个重要的功能进展,所以特地发一篇聊聊。


图像和图像的生成过程靠文字无法描述,我特地做了一个录屏。大家可以观看或自行测试。底部录像工具栏上有时间,总长2min。

图像生成过程似乎分为:

我说下我的感受:


而且问题在于,这并不是生图特化的方案。GPT4o之前就已经交付了原生语音生成,而现在交付了原生图像生成。这种方式其实可以直接交付视频等所有其他模态。所有模态的内容,只要找一个方式序列化之后,感觉就按照这个序列化方式再生成就好。

2025年大概可以算是多模态生成元年。虽然大概还有很多其他title。

未来已来。我还有什么可说的呢?

(Gemini和豆包也都在产品中上线了生图能力,说实话都不错。但看了OpenAI这个之后,感觉似乎这是下一代的生图方案。)


本文题图由ChatGPT 4o生成。之前我刚切换到 即梦 生成题图不久,但看起来已经可以换到ChatGPT了。


交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 专栏简介 及 联系方式 2024

本文于2025.3.26 首发于微信公众号

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

图像生成 多模态 GPT4o ChatGPT 4o
相关文章