我爱计算机视觉 2024年11月27日
图像修复(Inpainting)技术的前沿模型与数据集资源汇总
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

图像修复技术旨在填补图像缺失区域或去除不需要的部分,使其看起来自然。本文介绍了多个前沿的图像修复开源模型和数据集,例如LaMa、PowerPaint、IOPaint、BrushNet和MAT等,它们分别在处理大尺寸遮挡、多功能图像修补、图像扩展、基于分割掩膜修复和高分辨率图像修复等方面具有优势。此外,文章还提供了CelebA、Places2和NVIDIA Irregular Mask等数据集,为图像修复模型的训练和评估提供了宝贵资源,旨在加速开发人员的研究进程,轻松获取所需工具与数据。

🤔LaMa模型:由三星、EPFL、Skotech提出,专注于处理大尺寸遮挡区域的图像修复,采用快速傅里叶卷积和高感受野感知损失等技术,在高分辨率下表现出色。

🎨PowerPaint模型:由清华大学(深圳)和上海人工智能实验室开发,支持插入物体、移除物体、图像扩展等多种功能,通过学习定制的任务提示词来实现不同修复任务。

🧰IOPaint工具:一个免费开源的全自动托管图像修复/扩展工具,集成LaMa和PowerPaint等模型,提供擦除、修复和扩展等功能,并提供macOS和iOS应用程序OptiClean。

🖌️BrushNet模型:腾讯和港中大联合开发的即插即用图像修复方法,采用像素级掩膜图像特征插入架构,在图像质量、掩膜区域保留和文本一致性等方面表现优异,并提供BrushData和BrushBench数据集。

🖼️MAT模型:港中大、Adobe等提出的第一个基于Transformer的高分辨率图像修复系统,通过多头上下文注意力和样式操作模块,在Places和CelebA-HQ等数据集上取得了SOTA效果。

算力君 2024-11-26 23:30 江苏

附下载链接

图像修复(Image Inpainting)是一种计算机视觉技术,旨在填补图像中的缺失区域或去除图像中的不需要部分,使其看起来自然且无明显痕迹。其目标是根据图像的上下文信息和周围像素来推断和重建缺失区域的内容,以生成逼真且一致的图像。

Inpainting 技术的应用广泛,包括但不限于:

本文精心汇总了 Inpainting 技术的前沿开源模型与数据集资源,旨在加速开发人员的研究进程,轻松获取所需工具与数据。

LaMa

LaMa(LArge MAsk inpainting)是三星、EPFL、Skotech 提出的一个用于图像修复的深度学习模型,专门用于处理大尺寸遮挡区域的图像修复任务。

LaMa特点:

此外,LaMa 在远高于训练时所见分辨率(~2k,相较于训练时的 256x256)下表现出更良好的泛化能力,并且即使在具有挑战性的场景(如周期性结构的补全)中也能取得出色的表现。

PowerPaint

PowerPaint 是清华大学(深圳)和上海人工智能实验室共同开放的一个高质量多功能的图像修补模型,可以同时支持插入物体、移除物体、图像扩展、形状可控的物体生成,实现关键是通过针对不同修复任务学习定制的任务提示词来进行。

IOPaint

IOPaint 是一个免费的、开源的、全自动托管的图像修复/扩展工具,由最先进的 AI 模型提供支持。

在 IOPaint 中,可以使用多种模型来修改图像,包括以下几种修改:


BrushNet

BrushNet 是腾讯和港中大联合开发的一个即插即用(plug-and-play)图像修复方法,采用像素级掩膜图像特征插入的架构设计。在包括图像质量、掩膜区域保留和文本一致性在内的七个关键指标上均优于现有模型。

此外,为了训练和评估基于分割的掩膜修复模型,提出 BrushData 和 BrushBench。具体来说,BrushData 为 Laion-Aesthetic 数据集增加了额外的分割掩膜标注。BrushBench 共包含 600 张图像,每张图像都有人工标注的掩膜和字幕注释。BrushBench 中的图像均匀分布在自然图像和人工图像(如绘画)之间。该数据集在不同类别(包括人类、动物、室内场景和室外场景)之间实现了均衡分布。

MAT

MAT 是港中大、Adobe Inc 等提出的第一个基于 Transformer 的能够直接处理高分辨率图像修复系统。MAT 组件包括:Multi-head Contextual Attention 通过动态掩码指示的有效 Tokens,高效地进行长距离依赖建模。通过改进的 Transformer 模型结构,使得在训练大型掩码图像的修复时更加稳定。此外,还设计了新颖的样式操作模块,以提供多样性图像修复。MAT 在多个基准数据集上包括 Places 和 CelebA-HQ,取得了 SOTA 效果。

CelebA Dataset

CelebA Dataset 是一个专注于人脸图像的数据集,包含 20 多万张名人图像,这些图像涵盖了丰富的人脸表情、姿态和光照条件,以及每张图像有 40 个属性注释。为人脸编辑、人脸修复等任务提供了宝贵的训练资源。

Places2

Places 数据集由麻省理工学院(MIT)发布,包含 1000 多万张图像,包括 400 多个独特的场景类别。该数据集每类包含 5000 到 30000 个训练图像。

该数据集因其广泛的自然场景覆盖和丰富的图像多样性,非常适合用于构建图像修复模型,使模型能够从多种自然场景中学习分布特性。

NVIDIA Irregular Mask Dataset

NVIDIA 提出用部分卷积(partial convolutions)和掩模自动更新代替卷积运算(automatic mask update step)来实现目前最具艺术性的图像修复结果,包括任何形状、大小、位置或距离图像边界任何距离的空白。

另外,还提出一个大型不规则掩膜数据集(Irregular Mask Dataset), 55,116 个掩码用于训练,24,866 个掩码用于测试,图像的尺寸均为 512×512。


趋动云是面向企业、科研机构和个人 AI 开发者构建的开发和推理训练服务,也是全球首个基于 GPU 算力池化云的服务。
趋动云的使命是连接算力·连接人:
?通过连接全球算力,趋动云可以为用户提供便宜、好用的 AI 算力。
?通过为AI算法开发全流程提供优化服务、构建全球开发者项目和数据社区,趋动云可以帮助AI开发者接入丰富的生态,快速实现最佳实践。


趋动云
连接算力・连接人


注册即领
10元
算力金
更多福利,扫码添加小助手 邀你入群~
做新手任务
再得180元算力金
请注册后联系小助手,获取新手任务

▼HOT 趋动云火热注册中!点击 “阅读原文” 即可尝鲜~

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

图像修复 Inpainting 深度学习 开源模型 数据集
相关文章