Yaowei Li1*, Yuxuan Bian3*, Xuan Ju3*, Zhaoyang Zhang2‡, Junhao Zhuang4, Ying Shan2✉, Yuexian Zou1✉ Qiang Xu3✉
1Peking University 2ARC Lab, Tencent PCG
3The Chinese University of Hong Kong
4Tsinghua University
✉ Corresponding Author ‡ Project Lead
https://liyaowei-stu.github.io/project/BrushEdit/
BrushEdit 是一个先进的、统一的 AI 代理,用于图像修复和编辑。
主要元素:?️全自动 / ? 交互式编辑。
摘要
随着基于反转和基于指令的方法的发展,图像编辑取得了长足的进步。然而,由于反转噪声的结构化性质,当前基于反转的方法难以进行重大修改(例如,添加或删除对象),从而阻碍了实质性的变化。同时,基于指令的方法通常将用户限制在黑箱操作中,限制了指定编辑区域和强度的直接交互。为了解决这些限制,我们提出了BrushEdit,一种新颖的基于修复的指令引导图像编辑范式,它利用多模态大型语言模型 (MLLM) 和图像修复模型来实现自主、用户友好和交互式的自由形式指令编辑。具体而言,我们设计了一个支持自由形式指令编辑的系统,通过在代理协作框架中集成MLLM和双分支图像修复模型来执行编辑类别分类、主要对象识别、蒙版获取和编辑区域修复。大量实验表明,我们的框架有效地结合了 MLLM 和修复模型,在七个关键指标上取得了优异的性能,包括蒙版区域保存和编辑效果一致性。
我们的方法包括四个主要步骤:(i)编辑类别分类:确定所需的编辑类型。(ii)识别主要编辑对象:识别要编辑的主要对象。(iii)获取编辑蒙版和目标标题:生成编辑蒙版和相应的目标标题。(iv)图像修复:执行实际的图像编辑。步骤(i)至(iii)利用预先训练的 MLLM和检测模型来确定编辑类型、目标对象、编辑蒙版和目标标题。步骤(iv)涉及使用改进的双分支修复模型BrushNet进行图像编辑。该模型根据目标标题和编辑蒙版修复目标区域,利用修复模型的生成潜力和背景保存能力。
@misc{li2024brushedit, title={BrushEdit: All-In-One Image Inpainting and Editing}, author={Yaowei Li and Yuxuan Bian and Xuan Ju and Zhaoyang Zhang and and Junhao Zhuang and Ying Shan and Yuexian Zou and Qiang Xu}, year={2024}, eprint={2412.10316}, archivePrefix={arXiv}, primaryClass={cs.CV} }
内容中包含的图片若涉及版权问题,请及时与我们联系删除