首个图像生成基础模型阿里通义千问深夜开源Qwen-Image 支持中英双语

快科技资讯 8小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

阿里通义千问最新发布了其首个图像生成基础模型Qwen-Image，一个20B的MMDiT模型。该模型在复杂文本渲染和精准图像编辑两大核心领域取得了突破性进展。在文本渲染方面，Qwen-Image支持中英双语、多变字体、超长段落和复杂图文布局，并在多个榜单上获得SOTA（State-of-the-Art）的成绩，其文字渲染效果真实自然，是原生输出而非后期添加。在即将发布的图像编辑功能方面，模型展现出稳定的效果和链式编辑能力，能够保持主体ID的一致性，并支持图像内文字编辑、人物姿势调整等复杂操作。Qwen-Image在多项公开基准测试中均表现出色，尤其在中文文本渲染方面优势明显，预示着AI在图像生成和编辑领域的强大潜力。

🌟 **强大的文本渲染能力**：Qwen-Image在文本渲染方面表现卓越，能够原生、真实地处理中英双语、多变字体、超长段落及微小文字，并实现复杂的图文布局，在相关测评榜单中位居前列，显著优于现有模型，尤其在中文文本渲染上优势明显。

💡 **精准的图像编辑潜力**：即将推出的图像编辑功能将支持链式编辑，确保多轮修改后主体一致性，并能直接编辑图像中的文字，还能进行人物姿态调整、纹理提取等复杂操作，为用户提供专业级的图像编辑体验。

🚀 **全面的性能评估**：Qwen-Image在GenEval、DPG、OneIG-Bench等通用图像生成基准以及GEdit、ImgEdit、GSO等图像编辑基准上均达到了最先进的性能，展现了其在图像生成与编辑任务上的均衡且强大的实力。

🎨 **多样化的艺术风格支持**：除了核心的文本渲染和图像编辑能力，Qwen-Image在通用图像生成方面也表现出色，能够支持多种艺术风格的创作，满足用户多样化的视觉需求。

快科技8月5日消息，今天凌晨，阿里通义千问宣布开源Qwen-Image，一个20B的MMDiT模型。

这是通义千问系列中首个图像生成基础模型，其在复杂文本渲染和精确图像编辑方面取得显著进展。

据了解，该模型专注于提升AI在两大核心场景的能力：复杂的文本渲染与精准的图像编辑。

功能亮点：

强大的文字渲染能力（本次开源）

效果领先：在多个文本测评榜单中，文字渲染均获得SOTA。

原生渲染：文字是图像生成时直出的，而非后期添加，效果更真实。

功能全面：支持中英双语，多变字体，超长段落，超小文字，并可实现复杂的多位置图文布局。

基础扎实：除了文字，模型在人物情绪、细节刻画和多样的风格渲染上也同样表现出色。

精准的图像编辑能力（即将发布）

效果稳定：多个图像编辑测评榜单SOTA。

链式编辑：在多轮连续修改后，仍能保持主体ID的一致性。

文字编辑：可以编辑图像中的文字。

复杂编辑：可编辑人物姿势，提取图像纹理等。

通义千问在多个公开基准上对Qwen-Image进行全面评估，包括用于通用图像生成的GenEval、DPG和OneIG-Bench，以及用于图像编辑的GEdit、ImgEdit和GSO。

Qwen-Image在所有基准测试中均取得了最先进的性能，展现出其在图像生成与图像编辑方面的强大能力。

此外，在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明，Qwen-Image在文本渲染方面表现尤为出色，特别是在中文文本渲染上，大幅领先现有的最先进模型。

除了文本处理，Qwen-Image在通用图像生成方面也表现出色，支持多种艺术风格。

在图像编辑方面，Qwen-Image支持风格迁移、增删改、细节增强、文字编辑，人物姿态调整等多种操作，让普通用户也能轻松实现专业级图像编辑。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签