GLM大模型 2024年10月25日
CogView3-Plus,开源。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱技术团队开源了 CogView3-Plus-3B 模型,该模型基于级联扩散的 text2img 模型,在图像生成方面表现出色。CogView3-Plus-3B 在 CogView3 的基础上引入了最新的 DiT 框架,有效提升了整体性能,降低了训练和推理成本。该模型支持 512 ~ 2048 像素区间内分辨率的灵活生成,其生成效果与目前最先进的 text2img 模型持平。该模型已在「智谱清言」平台上线,用户可以体验图像编辑功能。

🎉 CogView3-Plus-3B 模型基于级联扩散的 text2img 模型,包含三个阶段:低分辨率生成、超分辨率生成和高分辨率生成。

🚀 CogView3-Plus-3B 在 CogView3 的基础上引入了最新的 DiT 框架,采用了 Zero-SNR 扩散噪声调度和文本-图像联合注意力机制,有效提升了整体性能,同时降低了训练和推理成本。

💡 CogView3-Plus-3B 使用潜在维度为 16 的 VAE,支持 512 ~ 2048 像素区间内分辨率的灵活生成,其生成效果与目前最先进的 text2img 模型持平。

💻 CogView3-Plus-3B 模型已在「智谱清言」平台上线,用户可以体验图像编辑功能。

🎁 CogView3 和 CogView3-Plus 模型均使用 Apache 2.0 协议开源。

🚀 未来计划基于 Diffusers 框架搭建一套微调方案,并适配 ControlNet。

智谱技术团队 2024-10-14 10:37 北京

开源 +1

我们已经开源了 CogView3 以及 CogView3-Plus-3B 。

先看下 CogView3-Plus-3B 的效果:

还不错,对吧?

CogView3 是一个基于级联扩散的 text2img 模型。

更具体来讲,CogView3 包含三个阶段:

第一阶段:利用标准扩散过程生成 512x512 低分辨率的图像。

第二阶段:利用中继扩散过程,执行 2 倍的超分辨率生成,从 512x512 输入生成 1024x1024 的图像。

第三阶段:将生成结果再次基于中继扩散迭代,生成 2048×2048 高分辨率的图像。

在实际效果上,CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,同时只需要 SDXL 大约 1/10 的推理时间。

更具体的方法细节,可以在这篇文章中查看。

CogView-3-Plus 在 CogView3(ECCV'24) 的基础上引入了最新的 DiT 框架,以实现整体性能的进一步提升。

其采用了 Zero-SNR 扩散噪声调度,并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比,它在保持模型基本能力的同时,有效降低了训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。

借由混合分辨率训练,CogView-3Plus 模型支持 512 ~ 2048 像素区间内分辨率的灵活生成。

下面是在各类评测上的结果:

从效果上看,CogView3-plus 有着和最领先的 text2img 模型持平的水平。

上:A pink colored car.

下:A stack of 3 cubes. A red cube is on the top, sitting on a red cube. The red cube is in the middle, sitting on a green cube. The green cube is on the bottom.

图像编辑功能

该系列模型的能力,已经上线「智谱清言」(chatglm.cn),可以在清言上体验。

本次,我们开源了该系列中的 3B 模型。

开源仓库地址:

https://github.com/THUDM/CogView3

Plus 开源模型仓库:

https://huggingface.co/THUDM/CogView3-Plus-3B

https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B

开源规划:

更多智谱开源:


阅读原文,直达开源仓库!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

CogView3-Plus-3B 开源 文本生成图像 AI 智谱
相关文章