IT之家 01月08日
解决“佛跳墙、老婆饼”问题,联通开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

联通数据智能公司发布了首个在国产昇腾AI平台训练和推理的中文原生文生图模型——元景。该模型通过融合复合语言编码模块,提升了对中文长文本、多属性和特色词汇的理解能力,显著增强了图像生成效果。元景模型替换了英文CLIP为中文CLIP,并引入encoder-decoder架构,支持更长的文本输入,从而实现更准确的中文语义理解。此外,该模型通过海量中文图文数据预训练,能准确理解中文专属名词,如“鼠标-老鼠”等易混淆对象。该模型已在多个平台开源,并成功应用于联通内外部项目。

🚀 元景文生图模型是首个在国产昇腾AI平台上实现训练和推理的中文原生模型,标志着文生图技术国产化的重要一步。

✍️ 模型采用复合语言编码模块,有效提升了对中文长文本、多属性对应以及特色词汇的语义理解,从而生成更精准的图像。

🖼️ 通过替换英文CLIP为中文CLIP,并引入encoder-decoder架构,模型能够支持更长的文本输入,实现更准确的中文语义理解和判断。

💡 该模型通过海量中文图文数据预训练,能够准确理解中文专属名词,避免了英文模型易混淆的对象,如“鼠标-老鼠”等,并能生成对应的图片。

IT之家 1 月 8 日消息,联通数据智能有限公司今日宣布开源首个完全在国产昇腾 AI 基础软硬件平台上实现训练和推理的中文原生文生图模型 —— 元景文生图模型

联通数据智能有限公司表示,当前的文生图主流模型以英文输入为主,中文原生的文生图模型研发则相对比较缓慢,这导致了模型对中文语义的理解能力不足,中文特色图片生成能力有限。

对此,元景文生图模型一方面将英文 CLIP 模型替换成中文 CLIP,使得模型中文短文本输入具有更好的理解能力;同时,引入复合语言编码架构,将基于 encoder-decoder 架构的语言模型引入了语言编码器部分,这使得模型能支持超过 CLIP 长度限制的长文本,实现更准确的中文语义理解和判断

元景中文文生图架构

通过引入复合语言编码模块,元景文生图模型实现了原生中文语义理解,避免了传统的利用翻译插件等作为中介调用英文文生图模型的方法所带来的中文信息损失。

同时通过引入海量中文图文对数据进行预训练,模型对中文专属名词,如鼠标-老鼠、仙鹤-吊车等英文模型易混淆的对象,以及中文菜谱等英文模型无法理解的名词,都能够准确理解并生成对应的图片。

▲ 提示词:鼠标、老鼠(在英文中均翻译成 mouse,易混淆)

提示词:仙鹤、吊车(在英文中均翻译成 crane,易混淆)

提示词:佛跳墙、老婆饼(中文特色词汇)

提示词:一只身体毛发黑白相间的兔子正在草丛间啃胡萝卜

提示词:在绿色的森林中,隐藏着一座白色的哥特式教堂,教堂的尖塔直指蓝色的天空,教堂周围是五彩斑斓的野花和浅黄色的草坪(中文长文本)

中国联通在国产昇腾 AI 基础软硬件平台上实现了元景文生图模型从微调训练到推理的一体化适配。在微调训练方面,用户可使用自定义数据集,实现从其它平台至昇腾的平滑切换;在模型推理方面,接口与 Diffusers 对齐,支持单卡和多卡,单卡推理支持 UNet Cache 加速。

联通数据智能有限公司透露,目前,元景文生图模型已在联通内外部多个项目中成功应用。

目前,元景文生图模型已在 GitHub、Hugging Face、魔搭、始智等社区全面开源,IT之家附开源地址如下:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

元景文生图模型 昇腾AI 中文原生 文生图 国产化
相关文章