谈GPT4o的原生图像生成（2）

孔某人的低维认知 04月09日

谈GPT4o的原生图像生成（2）

本文作者分享了对GPT-4o生图功能的使用体验与观察，并探讨了其潜在影响。作者详细分析了GPT-4o生图的生成过程，包括隐藏的prompt生成、分块生图、细节微调、合规性检查等环节。同时，作者也指出了目前存在的问题，如长宽比限制、改图问题等。文章最后提出了对未来生图方案的展望，并呼吁行业内的交流与合作。

🖼️ GPT-4o生图过程分为多个阶段：首先有一个隐藏的prompt生成阶段，然后分块进行图像生成，对已生成部分进行细节微调，最后进行合规性检查和整体细节加强。

📐 GPT-4o生图存在一些已知问题：生成图片的长宽比固定、改图时易出现额外重绘、小文字生成效果不佳，且中文文字生成能力弱于英文。

💡 作者认为GPT-4o是下一代生图方案，但不会完全取代现有工作流，而是影响未来新项目的方案选择，国内生图模型公司将跟进。

🆕 作者提出了对未来生图功能的新需求：完全对照输入图片长宽比生成、支持图层标注或叠加、更好地支持大块文字生成，最终实现PSD格式的输入输出。

原创孔某人 2025-03-27 22:23 北京

每4h还能发现一些新的用法

第二天过去了，感觉每4h还能发现一些新的用法。限制我们利用GPT-4o生图能力的，是我们思维里的墙。

我目前还不能很好的推导到底会有哪些改变，以及未来的行动策略应该是什么样。有点大脑空白。

目前对于它生成过程的观察：

1、有一个隐藏的prompt生成阶段，大概对应于一开始的方图占位符的时间。可以通许通过prompt hacking的方式把这个生成的prompt大致导出来。

2、生图似乎是分块进行的，这个分块按高度切割，大概高度的1/4-1/5一块，模糊遮罩的部分中也明显分为两部分，当前生成的块更清楚一些，下部的其他区域更模糊。

3、生图过程中也会更新遮罩下面的区域和已经生成的部分。已经生成部分的更新更多是细节微调。遮罩下面区域的更新可能会出现跳变。

4、整个图生成结束后还有一次合规性检查，如果不通过会生成失败。

5、整个图生成后，对于整体还有一次细节加强。

已知的问题：

1、生成图片的长宽比只有几个固定的档位。

2、改图的时候经常会额外重绘图片中的部分区域。

3、小文字的生成更容易出错。对中文文字生成能力弱于英文。

虽然说我认为它是下一代的生图方案，但这不意味着它会替代现有的工作流。

所有已经PMF的方案都不需要改变，新技术改变的是未来新项目的方案选择。

国内做生图模型的公司必然会跟进。在这里顺便提一些发现的新需求：

1、完全对照输入图片长宽比进行生成。

2、在长宽比一致的情况下，可以生成一些图层对于原图进行标注或者叠加。

3、考虑对于大块文字的更好支持，例如先生成一个文字图片参考图。

这些都有了之后就可以实现PSD格式输入，PSD格式输出了。

上一篇

全模态模型的多模态生成能力 | 谈GPT4o的原生图像生成

交流与合作

如果希望和我交流讨论，或参与相关的讨论群，或者建立合作，请加微信，联系方式请点击 -> 专栏简介及联系方式 2024。

本文于2025.3.27 首发于微信公众号

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-4o 生图图像生成 AI

相关文章

【iThome 2024 CIO大調查系列 1｜CIO年度目標】CIO更重視開創型IT戰略，AI創新優先度今年驟增

How popular is ChatGPT? Part 1: more popular than Taylor Swift

Weka Makes Life Simpler for Developers, Engineers, and Architects

Top 40+ Generative AI Tools in 2024

✨ 人人都能用好AI，这款GPTs 助你定制高效工作流：Prompt for me 作为一个AI布道者，Hans 在即刻写下数百篇新产品介绍、模型研究和心得，却仍感受到不同领域和...

Redundancy in AI: A Hybrid Convolutional Neural Networks CNN Approach to Minimize Computational Overhead in Reliable Execution

OpenAI计划下周宣布ChatGPT和GPT-4更新，但不会推出GPT-5和搜索引擎

Intersect360 Research Takes a Deep Dive into the HPC-AI Market in New Report

Is the Future of Retail AI in the Hands of CTOs?

In the AI Revolution, Real-Time Data Platforms Are the Hidden Drivers of Innovation