IT之家 8小时前
阿里通义千问首个图像生成基础模型 Qwen-Image 开源,支持中文高保真输出
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里通义千问团队发布了其首个图像生成基础模型Qwen-Image,该模型基于20B的MMDiT架构。Qwen-Image在复杂文本渲染和精确图像编辑方面展现出卓越能力,能够高保真地生成多行、段落级且细节丰富的文本,并支持多种艺术风格的通用图像生成。通过增强的多任务训练,Qwen-Image在图像编辑方面保持高度一致性,支持风格迁移、内容增删改、细节增强、文字编辑及人物姿态调整等专业级操作。在多项公开基准测试中,Qwen-Image均取得了最先进的性能,尤其在文本渲染和中文文本渲染方面表现突出,大幅领先现有模型。

🌟 Qwen-Image是通义千问系列推出的首个图像生成基础模型,基于20B的MMDiT架构,在复杂文本渲染和精确图像编辑方面取得了显著进展。

🎨 该模型在文本渲染能力上表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现,无论是英文还是中文都能实现高保真输出,并在中文文本渲染上大幅领先现有模型。

🔄 Qwen-Image具备强大的图像编辑能力,通过增强的多任务训练范式,在编辑过程中能保持高度一致性,支持风格迁移、增删改、细节增强、文字编辑以及人物姿态调整等多种专业级操作。

🏆 在多个公开基准测试(如GenEval、DPG、OneIG-Bench、GEdit、ImgEdit、GSO、LongText-Bench、ChineseWord和TextCraft)的评估中,Qwen-Image在通用图像生成、图像编辑及文本渲染任务中均取得了最先进(SOTA)的性能。

🚀 模型支持多种艺术风格的通用图像生成,从照片级写实到动漫风格,能够灵活响应各种创意提示,为用户提供广泛的创作自由。

IT 之家 8 月 5 日消息,阿里通义千问团队今日宣布开源 Qwen-Image,这是一个 20B 的 MMDiT 模型,也是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。

Qwen-Image 的主要特性包括:

通义千问团队在多个公开基准上对 Qwen-Image 进行了全面评估,包括用于通用图像生成的 GenEval、DPG 和 OneIG-Bench,以及用于图像编辑的 GEdit、ImgEdit 和 GSO。

Qwen-Image 在所有基准测试中均取得了最先进的性能。此外,在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的结果表明,Qwen-Image 在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型

IT 之家附示例如下:

宫崎骏的动漫风格。平视角拍摄,阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着“阿里云”卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。左边有一家店铺挂着“云存储”的牌子,里面摆放着发光的服务器机箱,门口两个侍卫守护者。右边有两家店铺,其中一家挂着“云计算”的牌子,一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕;另一家店铺挂着“云模型”的牌子,门口放着一个大酒缸,上面写着“千问”,一位老板娘正在往里面倒发光的代码溶液。

一副典雅庄重的对联悬挂于厅堂之中,房间是个安静古典的中式布置,桌子上放着一些青花瓷,对联上左书“义本生知人机同道善思新”,右书“通云赋智乾坤启数高志远”,横批“智启通义”,字体飘逸,中间挂在一着一副中国风的画作,内容是岳阳楼。

一个穿着“QWEN”标志的 T 恤的中国美女正拿着黑色的马克笔面相镜头微笑。她身后的玻璃板上手写体写着“Meet Qwen-Image -- a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解 Qwen-Image, 一款强大的图像基础模型,擅长复杂文本渲染与精准图像编辑”

除了文本处理,Qwen-Image 在通用图像生成方面支持多种艺术风格。从照片级写实场景到印象派绘画,从动漫风格到极简设计,该模型能够灵活响应各种创意提示。

在图像编辑方面,Qwen-Image 支持风格迁移、增删改、细节增强、文字编辑,人物姿态调整等多种操作。这让普通用户也能实现专业级的图像编辑。

IT 之家附开源地址如下:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

通义千问 Qwen-Image 图像生成 AI艺术 文本渲染
相关文章