Cnbeta 前天 07:19
通义千问首个文生图模型开源:破解AI图像生成“写字”难题 复杂中英文渲染效果惊艳
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

通义千问近日宣布开源其首个20B参数的图像生成基础模型Qwen-Image,该模型在复杂文本渲染和精确图像编辑方面表现突出。Qwen-Image在多项公开基准测试中均达到SOTA水平,尤其在海报制作、分模块案例及小纸张长文本生成等场景下,能高保真地渲染中英文文字,并准确保留图像细节。模型支持多种艺术风格,从写实到动漫,能够灵活响应创意指令。通义千问希望此举能降低视觉内容创作门槛,促进图像生成领域发展,并期待社区共同构建生成式AI生态。Qwen-Image已在魔搭社区与Hugging Face开源。

🌟 **卓越的文本渲染能力**:Qwen-Image在海报制作、分模块案例以及小纸张长文本生成等场景下,能够高保真地渲染中英文文字,并准确保留人物姿势、神态等图像细节,同时支持双语切换,展现了其在复杂文本生成方面的强大实力。

🎨 **强大的图像编辑与风格多样性**:该模型具备一致性的图像编辑能力,能够精确修改图像。在通用图像生成方面,Qwen-Image支持从照片级写实到印象派、动漫风格等多种艺术风格,能灵活响应用户的创意提示,满足不同视觉需求。

🏆 **跨基准的SOTA性能**:Qwen-Image在GenEval、DPG、OneIG - Bench(通用图像生成)、GEdit、ImgEdit、GSO(图像编辑)以及LongText - Bench、ChineseWord、TextCraft(文本渲染)等多个公开基准测试中均取得了State-of-the-Art(SOTA)的成绩,证明了其在各类生成与编辑任务中的领先地位。

🚀 **推动AI生态发展**:通义千问通过开源Qwen-Image,旨在降低视觉内容创作的技术门槛,激发更多创新应用。公司期待社区的积极参与和反馈,共同构建一个开放、透明、可持续发展的生成式AI生态系统。

8月5日,通义千问官方宣布开源一个20B的MMDiT模型Qwen-Image,这是通义千问系列中的首个图像生成基础模型,在复杂文本渲染和精确图像编辑方面进展显著。该模型具备卓越的文本渲染能力、一致性的图像编辑能力及强大的跨基准性能表现。

在多个公开基准测试中,包括GenEval、DPG、OneIG - Bench(通用图像生成),GEdit、ImgEdit、GSO(图像编辑)以及LongText - Bench、ChineseWord、TextCraft(文本渲染)等,Qwen-Image在各类生成与编辑任务中均获得SOTA。


在性能表现上,Qwen-Image能在不同场景中实现高保真文本渲染。例如,在海报制作中,它不仅能准确展示海报风格,还能保留人物姿势和神态刻画,准确生成指定的中英文文字;在分模块案例中,能完成排版并生成各部分的图标、标题和介绍文本;除此之外,即使纸张面积小且段落文字长,也能准确生成文字,还可在双语间灵活切换。


同时,Qwen-Image 在通用图像生成方面支持多种艺术风格,从照片级写实到印象派绘画,从动漫风格到极简设计,能灵活响应创意提示。


通义千问表示,希望Qwen-Image能进一步推动图像生成领域发展,降低视觉内容创作技术门槛,激发更多创新应用可能,同时期待社区积极参与和反馈,共同构建开放、透明、可持续发展的生成式AI生态。

目前,该模型已在魔搭社区与Hugging Face开源。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

通义千问 Qwen-Image 图像生成 AI绘画 开源模型
相关文章