我爱计算机视觉 2024年10月17日
“左脚踩右脚”提升文生图模型综合能力!清北牛津普林斯顿联合发布 IterComp
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文分享了清北牛津普林斯顿联合发布的IterComp,它是一个全新的文生图框架,旨在解决现有文生图模型的局限,提升综合能力。文中介绍了相关模型的发展及局限,阐述了IterComp的提出背景、解决的难点及实验结果等内容。

🎯基于diffusion的文生图模型发展迅速,不同模型在组合生成中各有优势及局限,如基于文本的模型在物体与场景模拟上出色,但在多物体复杂空间关系处理上不足。

💡IterComp通过构建模型库,收集不同模型在属性绑定、空间关系和非空间关系方面的偏好数据,训练奖励模型并对基础模型进行多奖励反馈优化,以提取不同模型的优势并引导有效学习。

🌟IterComp引入迭代式学习框架,将优化后的基础扩散模型和其他模型添加进模型库,进行偏好采样构建图像对,进一步优化奖励模型和基础扩散模型,实验结果显示其取得显著提升。

Trebor 2024-10-17 13:14 江苏




关注公众号,发现CV技术之美




本文分享论文IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation,清北牛津普林斯顿联合发布 IterComp,提升文生图模型综合能力!

自2022年以来,基于diffusion的文生图模型取得了快速的发展,尤其在复杂组合生成(complex/compositional generation)任务上取得了显著进展。

例如,今年8月发布的FLUX展现出了十分震撼的复杂场景生成能力与美学质量;RPG通过MLLM的辅助,将复杂的组合生成任务分解为简单子任务;InstanceDiffusion通过布局控制(layout-based),实现了与布局分布高度一致的精确图像生成。

在组合生成中不同模型展现出不同的优势(composition-aware model preference)

然而,我们发现这些模型的优势仅限于某些特定的组合生成任务,且存在诸多局限。基于文本(text-based)的生成方法(如SDXL、SD3、FLUX等)由于其训练数据和框架的优势,在物体与场景的模拟上表现出色,特别在美学质量、属性绑定和非空间关系(non-spatial relationships)方面表现出色。然而,当涉及多个物体,且存在复杂的空间关系时,这类模型往往表现出明显的不足。

基于大语言模型(LLM-based)的生成方法,如Omost和RPG,通常需要对LLM进行额外训练或设计复杂的提示提示。然而,对于LLM处理后的复杂指令,diffusion backbone并不具备复杂指令下精确生成的能力。基于布局(layout-based)的生成方法,如Instancediffusion和LMD+,虽然提供了精确的控制,但在图像的美学质量和真实性上存在明显下降,并且需要人为设计布局。

因此,一个值得深入探讨的问题是:我们能否设计出一个强大的模型,在上述多个方面都表现出色,同时不引入额外的复杂指令或增加计算开销?

基于此,我们提出一个全新的文生图框架:IterComp。

要充分解决这一问题,我们面临两大难点:

1.如何提取不同模型在各自领域的优势,并引导模型进行有效学习?

针对该问题,我们首先构建了模型库(model gallery),其包含多种在不同方面表现出色的模型,每个模型都具备特定的组合生成偏好(composition-aware model preference)。我们尝试通过扩散模型对齐方法,将base diffusion model与模型库中的组合生成偏好进行对齐。

我们聚焦于compositional generation的三个关键方面:属性绑定(attribute binding)、空间关系(spatial relationship)和非空间关系(non-spatial relationship)。为此,我们收集了不同模型在这些方面的偏好数据,并通过人工排序,构建了一个面向组合生成的模型偏好数据集(composition-aware model preference dataset)。

针对这三个方面,我们分别训练三个composition-aware reward models,并对base模型进行多奖励反馈优化。

2.组合生成任务很难优化,如何更充分地学习到不同模型的组合偏好?

我们在diffusion领域创新地引入迭代式学习框架(iterative feedback learning),实现reward models与base diffusion model之间“左脚踩右脚登天”。

具体地,在上述第一轮优化后,我们将optimized base diffusion model以及额外选择的其他模型(例如Omost等)添加进model gallery。对新增模型进行偏好采样,与初始model gallery中的图像按照预训练的reward model构建图像对。这些图像对被用于进一步优化奖励模型,随后继续用更新的奖励模型优化基础扩散模型。具体的流程如下伪代码所示:


实验结果

与其他三类compositional generation方法相比,IterComp取得了显著的组合质量的提升,并且不会引入额外的计算量。

从定量结果中可以看出,IterComp在T2I-CompBench上取得了各方面的领先,另外,针对图像真实性以及美学质量,IterComp也表现出色

然而IterComp的应用潜力并非如此,其可以作为强大的backbone显著提升Omost, RPG等模型的生成能力。

本文还有很多技术细节,后续会再更新此帖,也欢迎大家关注项目地址:https://github.com/YangLing0818/IterComp

本文为粉丝投稿。最新 AI 进展报道

请联系:amos@52cv.net

END




欢迎加入「文生图交流群?备注:生成




跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

IterComp 文生图 模型优势 迭代学习
相关文章