CV君 2025-08-05 22:55 江苏

近日，Qwen Team团队发布了其Qwen系列在图像生成领域的最新力作——Qwen-Image。这份技术报告详细介绍了一款在复杂文本渲染和精准图像编辑方面取得显著突破的基础模型。Qwen-Image不仅能生成风格多样的图片，更在图片中精准、清晰地渲染文字（尤其擅长中文），并能对图像进行高保真度的编辑，标志着文图生成技术迈向了新的高度。

论文标题: Qwen-Image Technical Report

机构: Qwen Team

论文地址: https://arxiv.org/pdf/2508.02324v1

项目地址: https://github.com/QwenLM/Qwen-Image

研究背景

当前的图像生成模型，如DALL-E 3、Midjourney等，虽然在生成富有创意和艺术感的图像方面表现出色，但在一个长期存在的挑战上仍有不足：在图像中准确地渲染文本。无论是简单的单词拼写，还是复杂的段落布局，或是像中文这样的语素文字，都常常出现错误。此外，对生成图像进行局部编辑时，如何确保编辑内容与原始图像在语义、风格和光影上无缝衔接，保持高度的一致性，也是业界的一大难题。Qwen-Image正是为了攻克这两大核心挑战而生。

核心方法

为了同时解决文本渲染和编辑一致性两大难题，Qwen-Image 团队设计了一套创新的架构和训练策略。

1. 针对复杂文本渲染的解决方案

为了让模型学会“写字”，研究团队从数据和训练方法两方面入手：

全面的数据处理流程：构建了一个包含大规模数据收集、过滤、标注、合成和平衡的综合数据管道。这确保了模型能接触到海量且高质量的图文并茂数据，为学习文本渲染打下坚实基础。

1.数据收集

团队系统性地收集并标注了数十亿图像-文本对以支撑图像生成模型的训练。与单纯追求原始数据规模不同，更注重数据质量与均衡分布，旨在构建一个贴近真实场景、均衡且具有代表性的数据集。如上图所示，该数据集被划分为四大核心领域：自然、设计、人物与合成数据。

2.数据过滤

为确保图像生成模型在迭代开发过程中始终使用高质量训练数据，团队提出如上图所示的七阶段渐进式过滤流程。

阶段1：初始预训练数据筛选

阶段2：图像质量增强

阶段3：图文对齐优化

阶段4：文本渲染增强

阶段5：高分辨率优化

阶段6：类别平衡与肖像增强

阶段7：多尺度平衡训练

3.数据标注

数据标注流程中，采用高性能图像描述模型（如Qwen2.5-VL）同时生成全面的图像描述和结构化元数据，以捕捉关键图像属性与质量特征。不同于将描述生成与元数据提取视为独立任务，设计了联合标注框架：描述模型在输出视觉内容叙述的同时，以JSON等结构化格式生成详细参数。

该方案兼具高效性与可扩展性，无需依赖额外模型或后处理步骤即可支持大规模数据集处理，不仅为图像内容提供深度解析，更为训练鲁棒可靠的图像生成模型奠定了数据基础。

4.数据合成

针对现实图像中文本内容的长尾分布问题（尤其是中文等非拉丁语系中大量低频字符的存在），单纯依赖自然场景文本难以确保模型训练时充分接触这些稀有字符。为此，团队提出多阶段文本感知图像合成流程，通过以下三种互补策略提升文本渲染的鲁棒性：

纯背景基础渲染

场景化复合渲染

结构化模板渲染

通过简单性、真实性与结构复杂性的多维度渲染策略，系统解决了自然图像数据集中文本稀缺与分布不均的难题，最终实现跨场景的高质量文本渲染生成。

渐进式训练策略：采用了一种课程学习（Curriculum Learning）的方法。训练从不含文字的图像生成开始，逐步引入简单文本，然后过渡到复杂文本和段落级描述。这种由易到难的学习路径，极大地增强了模型的原生文本渲染能力。

通过这一系列精心设计，Qwen-Image不仅在英文等字母语言上表现优异，更在中文这类结构复杂的语素文字渲染上取得了显著进步。

2. 针对图像编辑一致性的解决方案

为了实现“指哪改哪、改得还真”的精准编辑，Qwen-Image引入了以下关键技术：

改进的多任务训练范式：在传统的文本到图像（T2I）和文本-图像到图像（TI2I）任务基础上，创新性地加入了图像到图像（I2I）重建任务。这使得模型的潜在表示（latent representations）在Qwen2.5-VL（视觉语言模型）和MMDiT（多模态扩散Transformer）之间得到有效对齐。

双编码机制：在编辑时，原始图像被分别送入Qwen2.5-VL和VAE编码器。前者用于提取高层语义信息（知道图里有什么），后者用于获取像素级的重建信息（知道图长什么样）。这种双编码机制使得编辑模块能够在“保留原图语义”和“维持视觉真实感”之间取得绝佳平衡。

模型架构：Qwen-Image采用了标准的双流MMDiT（Double-stream MMDiT）架构，并设计了一种新颖的多模态可扩展旋转位置编码（Multimodal Scalable RoPE, MSRoPE），以联合编码图像和文本模态的位置信息。

Qwen-Image架构基于三个协同工作的核心组件，以实现高保真文生图功能。首先，多模态大语言模型（MLLM）作为条件编码器，负责从文本输入中提取特征；其次，变分自编码器（VAE）充当图像分词器，将输入图像压缩为紧凑的潜在表征，并在推理时解码还原；最后，多模态扩散Transformer（MMDiT）作为主干扩散模型，在文本引导下建模噪声与图像潜在变量间的复杂联合分布。