CVPR 2025 | UNIC-Adapter: 多任务统一图像指令适配器

赵杉杉 2025-07-19 09:03 浙江

这是2025年的第80篇文章

（本文阅读时间：15分钟）

摘要

在文本到图像生成领域，尽管扩散模型已取得显著进展，但仅依赖文本提示进行创作，往往难以对图像的空间布局、对象外观及全局风格实现精细化控制。为弥补这一不足，学术界涌现了多种引入条件图像（Conditional Images）的工作，如ControlNet和IP-Adapter。然而，这些方法通常存在两大局限：（1）任务专用性：现有工作常为特定控制模态设计专用模型，例如ControlNet专注于像素级结构控制，而IP-Adapter则通过提取全局CLIP特征来保留内容或风格，但这使其无法胜任精确的像素级对齐任务；（2）意图模糊性：当用户提供一张参考图时，现有模型缺乏区分用户意图的机制：是希望复用其布局结构，还是模仿其主体外观或艺术风格？

为解决上述模型冗余和意图模糊的双重挑战，通过引入“任务指令”与“条件图像”的双重输入，我们提出了UNIC-Adapter，一个基于多模态扩散Transformer（MM-DiT）的统一可控生成框架。在技术实现上，我们利用交叉注意力机制将指令与图像特征进行深度融合，并借助旋转位置编码（RoPE）来增强空间控制的精确性。这种设计使得单一模型即可灵活解析并执行多样的用户意图，从而在无需训练多个专用模型的前提下，高效实现了包括像素级控制、主体驱动生成和风格迁移在内的多种任务的统一。实验表明，UNIC-Adapter在多个基准数据集上均优于现有方法，验证了其在多条件生成中的卓越性能。此外，UNIC-Adapter 的设计还使其能自然扩展到图像编辑和传统视觉感知（如深度估计、姿态估计）等任务。

代码链接：https://github.com/AIDC-AI/UNIC-Adapter

论文链接：https://openaccess.thecvf.com/content/CVPR2025/papers/Duan_UNIC-Adapter_Unified_Image-instruction_Adapter_with_Multi-modal_Transformer_for_Image_Generation_CVPR_2025_paper.pdf

图1: UNIC-Adapter 赋予了 SD3 模型“统一指令理解”的能力。仅通过改变任务指令和条件图像，单一模型即可完成不同类型的可控生成任务。其中(a)为文本提示，(b)为任务指令，(c)为条件图像，(d)为生成结果。

背景与研究动机

2.1 为什么需要统一可控生成？

实现统一可控生成旨在解决当前文生图模型在实际应用中的可控性，以及专用控制模型（如ControlNet、IP-Adapter等）存在的局限性，其动机主要体现在以下三个方面：

1. 克服模型冗余与参数效率低下：为每一种控制模态（如Canny边缘图、深度图、身份、风格图）训练和存储一个独立的专用模型，导致了参数冗余和较高的训练与存储成本。统一框架通过在一个模型内共享大部分参数，实现了对多种控制任务的参数高效支持，显著降低了开发与部署开销。

2. 实现多条件组合性与协同控制：专用模型通常难以协同工作，组合多种控制（例如，同时控制姿态、身份和构图）需要复杂的、非原生的工作流，且效果难以保证。统一模型原生支持多条件输入，能够在一个连贯的框架内学习不同控制信号之间的相互关系与优先级，从而实现更复杂、更具表现力的协同控制。

3. 推动模型学习解耦的视觉表征：强制单个模型处理并区分不同性质的控制信号，例如，区分局部结构（边缘）、语义内容（主体）和全局纹理（风格），能够促使模型学习到更通用、更解耦的视觉表征。这将使模型超越简单的条件匹配，发展出对图像构成元素的更深层次理解，从而提升其泛化能力和生成质量，是迈向更通用生成智能的关键一步。

2.2 为何选择MM-DiT结构？

传统方法的局限

在早期和主流的扩散模型（如早期Stable Diffusion 系列）中，文本和图像的关系更像是“单向灌输”：如图2所示，图像特征是主要的处理对象，它作为查询（Query），而文本提示（Prompt）的特征则被当作一种外部的、固定的条件，它只作为键（Key）和值（Value）被注入。在这个过程中，文本信息是静态的。它就像一本只读的参考书，在整个生成流程的每一层被反复查阅，但它自身并不会根据图像生成过程中的变化而得到更新或细化。这种单向流动限制了模型对复杂文本提示的理解深度。

MM-DiT的优势

相较于之前的结构，MM-DiT架构（在Stable Diffusion 3中被率先应用）改变了这种关系，它将文本和图像从“主-从”关系提升为“平等对话”的关系，其结构如图2所示。具体来说，MM-DiT将文本和图像视为两种独立的、但地位平等的模态。在MM-DiT模块中，文本特征和图像特征都可以同时作为Query、Key和Value。图像特征不仅会“查询”自身，还会“查询”文本特征。同时，文本特征也会“查询”图像特征和自身。这构成了一个双向的、全注意力的交互机制。文本和图像特征在模型的每一层中都会相互影响、相互更新。文本特征不再是静态的，它会根据当前图像的生成状态进行动态调整，从而实现更精细、更上下文相关的引导。

（a）基于UNet的架构。来源：https://arxiv.org/pdf/2112.10752

（b）MM-DiT结构。来源：https://arxiv.org/pdf/2403.03206

图2: 主流扩散模型架构对比

为什么选择MM-DiT

UNIC-Adapter的首要任务，在于高效地融合“任务指令”和“条件图”这两种信息，形成一个统一的、高质量的控制信号。基于MM-DiT这种架构，“任务指令”和“条件图”可以进行深度的、双向的跨模态交互，从而让UNIC-Adapter能够精准理解“用这张图”和“做什么”之间的复杂关系，从而在一个统一的框架下，有效地处理从像素级结构控制到高级风格迁移等截然不同的任务，并实现了统一的可控生成。基于MM-DiT，UNIC-Adapter无需从头训练模型，仅需微调适配器参数，即可实现多条件下的统一生成。基于UNIC-Adapter和SD3文生图模型的统一可控生成框架如图1所示。

UNIC-Adapter

基于MM-DiT结构，我们设计了统一图像指令适配器UNIC-Adapter，其结构如图3所示，核心设计如下。

图3: UNIC-Adapter的整体架构。任务指令特征与条件图像特征通过一系列N个适配器模块进行逐步交互。在每个适配器模块中，主图像生成分支中来自MM-DiT模块的图像特征作为查询，而任务指令特征和条件图像特征则共同作为键和值。为简化起见，图中省略了归一化层和前馈网络。

3.1 图像指令特征提取

模型首先使用文本编码器（如CLIP, T5）提取任务指令的特征。

同时，使用VAE编码器提取条件图（如边缘图、主体图）的特征。

最关键的一步是，UNIC-Adapter内部也使用了一系列MM-DiT模块，让任务指令的特征和条件图的特征进行充分的交叉注意力计算。这意味着，指令信息和图像信息会相互“交流”和“校准”，让模型深刻理解“应该用这张图来做什么”。

3.2 图像指令特征注入

经过融合后的“指令-图像”复合特征，被注入到主干生成模型的每一层中。注入方式采用的是交叉注意力机制，让正在生成的图像（作为Query）主动地从复合特征（作为Key和Value）中查询所需信息。

这样，控制信号就能在整个生成过程中持续、有效地发挥作用。

3.3 位置编码的引入

对于像Canny边缘、深度图这样的像素级控制任务，空间位置的准确性至关重要。为了提升精度，我们在交叉注意力机制中引入了旋转位置编码 (Rotary Position Embedding, RoPE)。

RoPE能够为特征添加相对位置信息，让模型在生成时能更好地对齐条件图中的每一个像素，确保生成的图像结构不跑偏。

实验

为实现不同的可控生成任务，我们使用了不同类型的数据集：如像素级控制任务相关数据集MultiGen-20M等，主体驱动生成任务相关数据集GRIT等，以及风格迁移相关数据集WikiArt、StyleBooth等。

4.1 效果展示

像素级控制：

包含12种像素级控制任务，从Canny边缘、HED边缘、深度图到语义分割图，UNIC-Adapter都能精准地根据控制信号生成符合结构的图像。

主体驱动生成：该任务要求模型在保留参考图中特定主体（如一只猫、一个背包）的同时，根据新的文字提示生成不同场景的图像。

风格驱动生成：给定一张风格参考图和一段文字描述，模型需要生成一幅兼具二者特点的图像。

进一步扩展

除了以上任务，我们还探索了 UNIC-Adapter 在更多应用场景下的潜力，如图像编辑（图4）、传统视觉感知任务（如深度估计、姿态估计，图5）、以及多条件控制（图6）。

（a）背景替换。左：原图；右：编辑后图片

（b）局部编辑。左：原图；右：编辑后图片

图4: 图像编辑示例。(a) 背景替换。(b) 局部编辑。

图5: 视觉感知任务示例。从左到右依次为深度图、语义分割图和人体姿态估计结果。

图6: 多条件联合控制示例。像素级控制信息与风格信息的联合控制。

总结与展望

本论文研究了基于MM-DiT架构的统一图像可控生成方法。创新性地提出了一种统一图像指令适配器UNIC-Adapter，该模块通过多模态特征融合机制，能够联合解析视觉内容与文本指令的语义关联，从而实现对像素级控制、主体驱动生成和风格迁移等多样化生成任务的统一建模。实验结果表明，该框架在多个任务场景中展现出卓越的生成性能，同时在图像编辑、视觉感知及多条件联合生成等扩展应用中也表现出良好的适应能力。未来若能引入更大规模、更高质量的训练数据集，模型在各类可控生成任务中的表现有望获得进一步提升。

本项工作于2024年11月完成投稿，其初始动机是探索如何将多模态信息提取为统一的控制信号，以实现更灵活的可控图像生成。值得注意的是，这一研究方向与后续的技术趋势不谋而合。例如，2025年3月OpenAI发布的新版GPT-4o模型，以其生成与理解一体化的设计，展示了强大的可控生成能力，并由此催生了社区对于“理解-生成”一体化模型的广泛探索。在技术路径上，UNIC-Adapter与当前趋势存在一个关键区别：UNIC-Adapter利用MM-DiT架构原生地提取并融合多模态特征；而近期涌现的许多工作则倾向于利用现有的、强大的预训练多模态大模型作为高级特征提取器。虽然UNIC-Adapter的方法验证了一种有效的集成架构，但借助大型预训练模型的深厚理解能力，无疑是该领域一个极具潜力的未来发展方向。

欢迎留言一起参与讨论~

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签