我爱计算机视觉 2024年10月23日
来自非自回归模型的反击?全新文生图基座模型Meissonic:1B文生图Non-AR新范式 专为消费级显卡设计
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meissonic是一种基于非自回归掩码图像建模的模型,在文生图任务中表现出色。它解决了现有T2I模型的诸多限制,在生成质量、效率、分辨率等方面具有优势,且在多个测试和应用场景中有优异表现。

🎯Meissonic采用非自回归的掩码图像建模(MIM),设立了高效、高分辨率T2I生成的新标杆。其架构创新,位置编码策略先进,采样方式优化,提升了图像保真度与分辨率。

🌟Meissonic的训练分为四个阶段,从理解基础概念到增强文本与图像配对,再到实现高分辨率图像生成,最后精细化高分辨率图像的美学生成,逐步提升生成效果。

💪在多个测试和应用场景中,Meissonic表现优异。如在HPS V2.0基准测试中超越SDXL,在图像编辑能力测评数据集Emu-Edit上表现出色,在风格多样性生成上远超SDXL等。

🚀Meissonic在训练数据和计算成本上显著减少,训练时间短,且能在8GB显存下运行,为中低端显卡用户带来福音。

CV君 2024-10-23 17:35 江苏




关注公众号,发现CV技术之美




近年来,大语言模型在自然语言处理领域取得了突破性的进展。以LLaMA和Qwen等模型为代表,这些模型通过遵循扩展规律,展现出强大的语言处理能力。这些成功促使研究者们探索类似方法在文生图(T2I)任务中的应用。然而,现有的T2I模型在架构和生成机制上仍存在诸多限制,尤其是在生成高分辨率图像时,效率较低。

在视觉生成领域,扩散模型(如Stable Diffusion和SDXL)已成为主流方法,凭借其优越的生成质量赢得了广泛的应用。研究社区逐渐关注到扩散模型与语言模型截然不同的工作机制会导致其在构建统一的语言-视觉生成模型方面面临挑战。类似地,自回归文生图模型(如LlamaGen)通过预测next-token进行图像生成,但由于生成的图像token数量庞大,自回归文生图模型在效率和分辨率上也存在瓶颈。

Meissonic模型带来了全新的解决方案,基于非自回归的掩码图像建模(MIM),为高效、高分辨率的T2I生成设立了新的标杆。通过架构创新、先进的位置编码策略以及优化的采样方式,Meissonic在生成质量和效率上不仅与领先的扩散模型(如SDXL)相媲美,甚至在某些场景下超越了这些模型。此外,Meissonic利用高质量的数据集,并通过基于人类偏好评分的微观条件进行训练,同时采用特征压缩层,大幅提升了图像的保真度与分辨率。

以下是Meissonic在方法上的几项重要技术改进:

那么,Meissonic 到底有多厉害呢?

让我们来看看它的表现:

在HPS V2.0基准测试中,Meissonic以平均0.56分的优势超越了SDXL。

在图像编辑能力测评数据集Emu-Edit上,Meissonic模型表现出色,其Zero-shot图像编辑性能甚至超越了经过图像编辑指令微调后的模型:

在风格多样性生成上,Meissonic更是展现出来远超SDXL的性能。同时,在zero-shot inpainting\outpainting和mask-free editing上的表现也可圈可点!

而这一切,都只需要SDXL 1/3的推理时间和1/2的显存占用。值得注意的是,Meissonic原生就可以在8GB显存下运行,以后用中低端显卡的宝宝们有福了。

此外,Meissonic还展现了超强的zero-shot图像编辑能力,无需微调即可对有mask和无mask的场景进行灵活编辑,提供了更多的创作可能性。

高效推理与训练的结合

在当下的文本到图像合成领域,Meissonic模型以其卓越的效率脱颖而出。该模型不仅致力于实现高效的推理过程,同时也在训练阶段显著提升了效率。Meissonic通过一套精心设计的四阶段训练流程,逐步提升生成效果。

阶段一:从广泛的数据中理解基础概念

研究发现,原始LAION数据集的文本描述无法充分满足文本到图像模型的训练需求,通常需要多模态大型语言模型(MLLM)进行优化。然而,这种方式计算资源消耗巨大。虽然部分研究使用了广泛标注的SA-10M数据集,但Meissonic团队发现,该数据集在人脸等特定领域仍有不足。因此,Meissonic在初始阶段采用了更加平衡的策略,通过降分辨率的方法提高效率,利用经过筛选的高质量LAION数据学习基础概念。最终保留了约2亿张高质量图像,并将初始训练分辨率设定为256 x 256。

阶段二:通过长提示增强文本与图像的配对

在第一阶段,模型的训练未依赖于高质量的图文配对数据。为了弥补这一点,第二阶段的重点在于提升模型理解长文本描述的能力。团队筛选了审美分数高于8的图像,并引入了120万对优化后的合成图文对及600万对内部高质量的图文对。此阶段,训练分辨率提升至512 x 512,配对数据总量达到约1000万对。通过这一阶段,Meissonic在处理复杂提示(如多样风格和虚拟角色)以及抽象概念方面展现了显著进步。

阶段三:特征压缩实现高分辨率图像生成

在Masked Image Modeling(MIM)领域,生成高分辨率图像依然是一大挑战。与使用外部超分辨率模块的方式不同,Meissonic通过特征压缩技术高效实现了1024 x 1024分辨率的图像生成。引入特征压缩层后,模型可以在较低计算成本下实现从512 x 512到1024 x 1024的顺畅过渡。此阶段的数据集经过进一步筛选,仅保留了约600万对高分辨率、高质量的图文配对,以1024分辨率进行训练。

阶段四:精细化高分辨率图像的美学生成

在最后阶段,Meissonic通过低学习率微调模型和文本编码器,并引入人类偏好评分作为训练条件,进一步提升了模型生成的图像质量和多样性。这一阶段的训练数据与第三阶段保持一致,但更注重对高分辨率图像生成的美学细节的打磨。

基于前述四个阶段的训练,Meissonic在训练数据和计算成本上显著减少。具体来说,Meissonic在训练过程中,仅使用了210万张图像,相较于其他主流模型(如SD-1.5和Dall-E 2),训练数据的使用量显著降低。在使用8个A100 GPU进行训练的情况下,Meissonic的训练时间仅需19天。这一时间显著低于Würstchen、SD-2.1等模型的训练时间。

广泛影响

最近,移动设备上的端侧文本到图像应用如谷歌Pixel 9的Pixel Studio和苹果iPhone 16的Image Playground应运而生。这些创新反映出提升用户体验和保护隐私的日益趋势。作为一种开创性的资源高效的文本到图像基座模型,Meissonic在这一领域代表了重要的进展。

相关链接:

最新 AI 进展报道
请联系:amos@52cv.net

END




欢迎加入「文生图交流群?备注:生成




跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Meissonic 文生图 图像生成 高效模型
相关文章