CV君 2025-08-05 22:55 江苏
近日,Qwen Team团队发布了其Qwen系列在图像生成领域的最新力作——Qwen-Image。这份技术报告详细介绍了一款在复杂文本渲染和精准图像编辑方面取得显著突破的基础模型。Qwen-Image不仅能生成风格多样的图片,更在图片中精准、清晰地渲染文字(尤其擅长中文),并能对图像进行高保真度的编辑,标志着文图生成技术迈向了新的高度。
论文标题: Qwen-Image Technical Report
机构: Qwen Team
研究背景
当前的图像生成模型,如DALL-E 3、Midjourney等,虽然在生成富有创意和艺术感的图像方面表现出色,但在一个长期存在的挑战上仍有不足:在图像中准确地渲染文本。无论是简单的单词拼写,还是复杂的段落布局,或是像中文这样的语素文字,都常常出现错误。此外,对生成图像进行局部编辑时,如何确保编辑内容与原始图像在语义、风格和光影上无缝衔接,保持高度的一致性,也是业界的一大难题。Qwen-Image正是为了攻克这两大核心挑战而生。
核心方法
为了同时解决文本渲染和编辑一致性两大难题,Qwen-Image 团队设计了一套创新的架构和训练策略。
1. 针对复杂文本渲染的解决方案
为了让模型学会“写字”,研究团队从数据和训练方法两方面入手:
全面的数据处理流程:构建了一个包含大规模数据收集、过滤、标注、合成和平衡的综合数据管道。这确保了模型能接触到海量且高质量的图文并茂数据,为学习文本渲染打下坚实基础。
1.数据收集
团队系统性地收集并标注了数十亿图像-文本对以支撑图像生成模型的训练。与单纯追求原始数据规模不同,更注重数据质量与均衡分布,旨在构建一个贴近真实场景、均衡且具有代表性的数据集。如上图所示,该数据集被划分为四大核心领域:自然、设计、人物与合成数据。
2.数据过滤
为确保图像生成模型在迭代开发过程中始终使用高质量训练数据,团队提出如上图所示的七阶段渐进式过滤流程。
阶段1:初始预训练数据筛选
阶段2:图像质量增强
阶段3:图文对齐优化
阶段4:文本渲染增强
阶段5:高分辨率优化
阶段6:类别平衡与肖像增强
阶段7:多尺度平衡训练
3.数据标注
数据标注流程中,采用高性能图像描述模型(如Qwen2.5-VL)同时生成全面的图像描述和结构化元数据,以捕捉关键图像属性与质量特征。不同于将描述生成与元数据提取视为独立任务,设计了联合标注框架:描述模型在输出视觉内容叙述的同时,以JSON等结构化格式生成详细参数。
该方案兼具高效性与可扩展性,无需依赖额外模型或后处理步骤即可支持大规模数据集处理,不仅为图像内容提供深度解析,更为训练鲁棒可靠的图像生成模型奠定了数据基础。
4.数据合成
针对现实图像中文本内容的长尾分布问题(尤其是中文等非拉丁语系中大量低频字符的存在),单纯依赖自然场景文本难以确保模型训练时充分接触这些稀有字符。为此,团队提出多阶段文本感知图像合成流程,通过以下三种互补策略提升文本渲染的鲁棒性:
纯背景基础渲染
场景化复合渲染
结构化模板渲染
通过简单性、真实性与结构复杂性的多维度渲染策略,系统解决了自然图像数据集中文本稀缺与分布不均的难题,最终实现跨场景的高质量文本渲染生成。
渐进式训练策略:采用了一种课程学习(Curriculum Learning)的方法。训练从不含文字的图像生成开始,逐步引入简单文本,然后过渡到复杂文本和段落级描述。这种由易到难的学习路径,极大地增强了模型的原生文本渲染能力。
通过这一系列精心设计,Qwen-Image不仅在英文等字母语言上表现优异,更在中文这类结构复杂的语素文字渲染上取得了显著进步。
2. 针对图像编辑一致性的解决方案
为了实现“指哪改哪、改得还真”的精准编辑,Qwen-Image引入了以下关键技术:
改进的多任务训练范式:在传统的文本到图像(T2I)和文本-图像到图像(TI2I)任务基础上,创新性地加入了图像到图像(I2I)重建任务。这使得模型的潜在表示(latent representations)在Qwen2.5-VL(视觉语言模型)和MMDiT(多模态扩散Transformer)之间得到有效对齐。
双编码机制:在编辑时,原始图像被分别送入Qwen2.5-VL和VAE编码器。前者用于提取高层语义信息(知道图里有什么),后者用于获取像素级的重建信息(知道图长什么样)。这种双编码机制使得编辑模块能够在“保留原图语义”和“维持视觉真实感”之间取得绝佳平衡。
模型架构:Qwen-Image采用了标准的双流MMDiT(Double-stream MMDiT)架构,并设计了一种新颖的多模态可扩展旋转位置编码(Multimodal Scalable RoPE, MSRoPE),以联合编码图像和文本模态的位置信息。
Qwen-Image架构基于三个协同工作的核心组件,以实现高保真文生图功能。首先,多模态大语言模型(MLLM)作为条件编码器,负责从文本输入中提取特征;其次,变分自编码器(VAE)充当图像分词器,将输入图像压缩为紧凑的潜在表征,并在推理时解码还原;最后,多模态扩散Transformer(MMDiT)作为主干扩散模型,在文本引导下建模噪声与图像潜在变量间的复杂联合分布。
实验结果与展示
Qwen-Image在多个公开基准测试中均取得了当前最佳(SOTA)性能,充分展示了其在图像生成和编辑方面的强大实力。
定量结果
定性结果
除了量化指标,模型在实际生成和编辑任务中的效果也同样惊艳,支持多样化的艺术风格生成、风格迁移、文本编辑、背景替换、物体增删替换以及姿态操控等多种复杂的编辑任务。
通用图像生成展示:
通用图像编辑展示:
更有趣的是,模型还能完成一些通用的图像理解任务,如目标检测、分割、深度/边缘估计、新视角合成和超分辨率等,这些都可以被看作是广义上的图像编辑。
论文贡献与价值
Qwen-Image的发布具有重要的学术和应用价值:
技术创新:提出了针对复杂文本渲染的全面数据处理流程和渐进式训练策略,以及用于高一致性编辑的改进的多任务训练范式和双编码机制。
性能突破:在文图生成,特别是文本渲染和图像编辑方面,取得了SOTA性能,为相关领域的研究设立了新的标杆。
开源贡献:团队已经开源了Qwen-Image模型及代码,这将极大地推动社区在高质量文图生成与编辑技术上的发展和应用。
总而言之,Qwen-Image不仅是一个强大的图像生成工具,更通过其创新的技术路径,为解决AIGC领域的长期挑战提供了宝贵的思路和坚实的开源工具,有望在数字内容创作、广告设计、个性化艺术等领域发挥巨大潜力。
了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net