孔某人的低维认知 04月09日
谈GPT4o的原生图像生成(2)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文作者分享了对GPT-4o生图功能的使用体验与观察,并探讨了其潜在影响。作者详细分析了GPT-4o生图的生成过程,包括隐藏的prompt生成、分块生图、细节微调、合规性检查等环节。同时,作者也指出了目前存在的问题,如长宽比限制、改图问题等。文章最后提出了对未来生图方案的展望,并呼吁行业内的交流与合作。

🖼️ GPT-4o生图过程分为多个阶段:首先有一个隐藏的prompt生成阶段,然后分块进行图像生成,对已生成部分进行细节微调,最后进行合规性检查和整体细节加强。

📐 GPT-4o生图存在一些已知问题:生成图片的长宽比固定、改图时易出现额外重绘、小文字生成效果不佳,且中文文字生成能力弱于英文。

💡 作者认为GPT-4o是下一代生图方案,但不会完全取代现有工作流,而是影响未来新项目的方案选择,国内生图模型公司将跟进。

🆕 作者提出了对未来生图功能的新需求:完全对照输入图片长宽比生成、支持图层标注或叠加、更好地支持大块文字生成,最终实现PSD格式的输入输出。

原创 孔某人 2025-03-27 22:23 北京

每4h还能发现一些新的用法

第二天过去了,感觉每4h还能发现一些新的用法。限制我们利用GPT-4o生图能力的,是我们思维里的墙。
我目前还不能很好的推导到底会有哪些改变,以及未来的行动策略应该是什么样。有点大脑空白。

目前对于它生成过程的观察:
1、有一个隐藏的prompt生成阶段,大概对应于一开始的方图占位符的时间。可以通许通过prompt hacking的方式把这个生成的prompt大致导出来。
2、生图似乎是分块进行的,这个分块按高度切割,大概高度的1/4-1/5一块,模糊遮罩的部分中也明显分为两部分,当前生成的块更清楚一些,下部的其他区域更模糊。
3、生图过程中也会更新遮罩下面的区域和已经生成的部分。已经生成部分的更新更多是细节微调。遮罩下面区域的更新可能会出现跳变。
4、整个图生成结束后还有一次合规性检查,如果不通过会生成失败。
5、整个图生成后,对于整体还有一次细节加强。

已知的问题:
1、生成图片的长宽比只有几个固定的档位。
2、改图的时候经常会额外重绘图片中的部分区域。
3、小文字的生成更容易出错。对中文文字生成能力弱于英文。

虽然说我认为它是下一代的生图方案,但这不意味着它会替代现有的工作流。
所有已经PMF的方案都不需要改变,新技术改变的是未来新项目的方案选择。

国内做生图模型的公司必然会跟进。在这里顺便提一些发现的新需求:
1、完全对照输入图片长宽比进行生成。
2、在长宽比一致的情况下,可以生成一些图层对于原图进行标注或者叠加。
3、考虑对于大块文字的更好支持,例如先生成一个文字图片参考图。
这些都有了之后就可以实现PSD格式输入,PSD格式输出了。

上一篇
全模态模型的多模态生成能力 | 谈GPT4o的原生图像生成

交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 专栏简介 及 联系方式 2024

本文于2025.3.27 首发于微信公众号

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-4o 生图 图像生成 AI
相关文章