魔搭ModelScope社区 02月10日
可控文生图:EliGen控制实体的位置细节变化
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

EliGen是由魔搭社区和浙江大学联合开发的实体级可控文生图模型,它通过Regional Attention机制和LoRA训练,实现了对图像中实体位置和细节的精准控制。该模型支持复杂构图、局部重绘、风格控制以及Logo迁移等多种功能。EliGen基于FLUX和Qwen2-VL构建了包含500k样本的实体级标注数据集,并对扩散模型中的Attention模块进行了扩展。实验结果表明,EliGen在实体级位置和细节控制方面表现出色,生成的图像质量远超同类模型,具有广泛的应用潜力。

📍EliGen模型的核心在于其提出的Regional Attention机制,该机制扩展了扩散模型的注意力模块,使得模型能够基于任意形状的空间信息进行实体级控制。它采用结构化文本向量表示控制信息,包括全局提示词和带有掩码的局部提示词,从而保证每个实体的token序列只作用于特定区域。

🎨为了激活EliGen的空间控制能力,研究团队构建了包含实体标注的数据集,并使用LoRA对实体控制任务进行了专门训练。他们利用FLUX.1-dev生成了500k训练图像,并借助Qwen2-VL 72B的强大图像理解和grounding能力,对训练样本进行了重描述,标注了图像中实体的语义和位置信息。

🖼️EliGen的应用场景十分广泛,包括复杂构图的实体级构建、图像局部重绘、特定风格的实体控制以及Logo迁移等。例如,它可以生成“月下的海天一色”或“太阳初升的朝圣”等复杂场景,并实现对已有图像中特定区域的重绘,或者将Logo迁移到目标图像上。

2025-02-07 19:57 浙江

EliGen是实体级可控文生图模型,采用Regional Attention机制和LoRA训练,可精准控制图像中实体的位置和细节,支持复杂构图、局部重绘、风格控制及Logo迁移等功能。

01


引言



为文生图模型增加额外的控制条件一直是AIGC社区研究的重点之一,如ControlNet, IP-Adapter等一直是热门可控生成方法。近期,魔搭社区联合浙江大学对实体级可控文生图进行了探索,并开发了EliGen模型。EliGen可以对想要生成的图像中的每个实体的位置和细节进行控制,从而生成具有复杂场景和构图的图像。


手持化妆镜的美丽小姐姐


EliGen提出了Regional Attention的注意力机制,对扩散模型中的Attention模块进行了通用扩展。同时,基于FLUX和Qwen2-VL,团队构建了500k样本的含有实体级标注的数据集,采用LoRA对EliGen进行了训练。EliGen不仅可以完成实体级的可控文生图任务,还可以对已有图像进行实体级局部重绘。同时,EliGen与社区模型:IP-Adapter、In-Context LoRA等结合,还可以应用在给定风格和角色的实体控制、Logo迁移等场景,具有无限可能。


论文链接:

https://arxiv.org/abs/2501.01097


代码链接:

https://github.com/modelscope/DiffSynth-Studio/tree/main/examples/EntityControl


模型链接:

https://www.modelscope.cn/models/DiffSynth-Studio/Eligen


在线Demo:

https://www.modelscope.cn/studios/DiffSynth-Studio/EliGen



02


EliGen技术方案



Regional Attention实现

EliGen提出了Regional Attention的机制,对扩散模型的注意力机制进行了扩展,使其支持基于任意形状空间信息的实体级控制。我们采用结构化文本向量来表示条件控制信息,包括描述图像整体内容的全局提示词(global prompt)和描述具体细节的多个局部提示词(local prompts)。每个local prompt都附带一个掩码(mask),用于表示其生成区域。基于这些mask,我们针对实体内、实体间和实体与图像的关系构建了attention mask,保证了每个实体的token序列只作用于特定区域。


训练数据生成和模型训练

使用Regional Attention对模型进行扩展后,可以发现它不经过训练也能改变某些区域的实体属性,比如颜色。但是未经训练的模型无法控制图像的布局。为了激活EliGen的空间控制能力,我们构建了带实体标注的数据集,采用LoRA,对实体控制任务进行了特化训练。


如下图所示,我们从DiffusionDB数据集的文本Prompt出发,使用FLUX.1-dev生成了500k训练图像。进一步,利用Qwen2-VL 72B的强大图像理解和grounding能力,对训练样本进行了重描述 (recaption),同时对图像中的实体的语义和位置信息进行了标注。



最终,经过训练,EliGen模型具有出色的实体级位置和细节控制能力,图像生成质量远超同类模型,在许多场景都有应用的潜力。


03


应用场景



复杂构图的实体级构建

代码:

https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/EntityControl/entity_control.py


月下的海天一色



太阳初升的朝圣



为EliGen举牌打call



美学的孤独



手持化妆镜的美丽小姐姐:EliGen具有实体控制的鲁棒性,又不失图像生成的多样性


图像局部重绘

代码:

https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/EntityControl/entity_inpaint.py


原图重绘图


特定风格的实体控制

代码:

https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/EntityControl/entity_control_ipadapter.py


风格参考图像
实体控制图像


Logo迁移

代码:

https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/EntityControl/entity_transfer.py


logo图和目标迁移图
迁移结果


点击阅读原文,即可跳转模型~




?点击关注ModelScope公众号获取

更多技术信息~




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

EliGen 文生图模型 Regional Attention LoRA 实体控制
相关文章