我爱计算机视觉 2024年11月15日
NeurIPS 2024 | 北大&华为提出扩散架构U-DiT,六分之一算力即可超越DiT
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Sora的发布推动了基于Transformer架构扩散模型的发展,DiT模型率先采用直筒型架构,但U-Net结构在图像生成领域依然表现出色。北大和华为的研究者提出U-DiT,将U-Net与Transformer结合,并引入下采样自注意力机制,有效降低计算量。实验结果表明,U-DiT在ImageNet生成任务、条件生成任务和大图生成任务上均显著优于DiT模型,且在相同算力下取得更好的生成效果,甚至在较短训练迭代次数下就能超越DiT模型的生成质量,展现了其强大的生成能力。

🤔 **U-DiT模型重新引入U-Net结构**: 针对现有扩散模型多采用直筒型架构,而U-Net在图像生成任务中表现出色的现状,U-DiT模型将U-Net与Transformer结合,探索更优的扩散模型架构。

💡 **下采样自注意力机制降低计算成本**: U-Net主干结构特征图主要为低频信号,全局自注意力运算存在冗余。U-DiT通过下采样操作,滤除高频噪声,强调低频信息,并采用共享的QKV映射,降低自注意力运算的计算量,同时提升模型性能。

📈 **U-DiT在图像生成任务上取得显著效果**: 在ImageNet生成任务、条件生成任务和大图生成任务上,U-DiT模型均超越了DiT模型,在相同算力下取得更好的生成效果,展现了U-DiT模型的优越性。

🚀 **U-DiT在较短训练迭代次数下超越DiT**: U-DiT-L模型在600K迭代时生成效果优于DiT模型在7M迭代时的效果,表明U-DiT模型训练效率更高,且能够在较短时间内达到优秀的生成质量。

2024-11-15 14:03 江苏

重拾 U-Net 结构的扩散 Transformer 力作。




关注公众号,发现CV技术之美




Sora 的发布让广大研究者及开发者深刻认识到基于 Transformer 架构扩散模型的巨大潜力。作为这一类的代表性工作,DiT 模型抛弃了传统的 U-Net 扩散架构,转而使用直筒型去噪模型。鉴于直筒型 DiT 在隐空间生成任务上效果出众,后续的一些工作如 PixArt、SD3 等等也都不约而同地使用了直筒型架构。


然而令人感到不解的是,U-Net 结构是之前最常用的扩散架构,在图像空间和隐空间的生成效果均表现不俗;可以说 U-Net 的 inductive bias 在扩散任务上已被广泛证实是有效的。因此,北大和华为的研究者们产生了一个疑问:能否重新拾起 U-Net,将 U-Net 架构和 Transformer 有机结合,使扩散模型效果更上一层楼?带着这个问题,他们提出了基于 U-Net 的 DiT 架构 U-DiT。




从一个小实验谈开去


首先,研究者开展了一个小实验,在实验中尝试着将 U-Net 和 DiT 模块简单结合。然而,如表 1 所示,在相似的算力比较下,U-Net 的 DiT(DiT-UNet)仅仅比原始的 DiT 有略微的提升。


在图 3 中,作者们展示了从原始的直筒 DiT 模型一步步演化到 U-DiT 模型的过程。


根据先前的工作,在扩散中 U-Net 的主干结构特征图主要为低频信号。由于全局自注意力运算机制需要消耗大量算力,在 U-Net 的主干自注意力架构中可能存在冗余。这时作者注意到,简单的下采样可以自然地滤除噪声较多的高频,强调信息充沛的低频。既然如此,是否可以通过下采样来消除对特征图自注意力中的冗余?


Token 下采样后的自注意力


由此,作者提出了下采样自注意力机制。在自注意力之前,首先需将特征图进行 2 倍下采样。为避免重要信息的损失,生成了四个维度完全相同的下采样图,以确保下采样前后的特征总维度相同。随后,在四个特征图上使用共用的 QKV 映射,并分别独立进行自注意力运算。最后,将四个 2 倍下采样的特征图重新融为一个完整特征图。和传统的全局自注意力相比,下采样自注意力可以使得自注意力所需算力降低 3/4。


令人惊讶的是,尽管加入下采样操作之后能够显著模型降低所需算力,但是却反而能获得比原来更好的效果(表 1)。



U-DiT:全面超越 DiT


根据此发现,作者提出了基于下采样自注意力机制的 U 型扩散模型 U-DiT。对标 DiT 系列模型的算力,作者提出了三个 U-DiT 模型版本(S/B/L)。在完全相同的训练超参设定下,U-DiT 在 ImageNet 生成任务上取得了令人惊讶的生成效果。其中,U-DiT-L 在 400K 训练迭代下的表现比直筒型 DiT-XL 模型高约 10 FID,U-DiT-S/B 模型比同级直筒型 DiT 模型高约 30 FID;U-DiT-B 模型只需 DiT-XL/2 六分之一的算力便可达到更好的效果(表 2、图 1)。




在有条件生成任务(表 3)和大图(512*512)生成任务(表 5)上,U-DiT 模型相比于 DiT 模型的优势同样非常明显。




研究者们还进一步延长了训练的迭代次数,发现 U-DiT-L 在 600K 迭代时便能优于 DiT 在 7M 迭代时的无条件生成效果(表 4、图 2)。




U-DiT 模型的生成效果非常出众,在 1M 次迭代下的有条件生成效果已经非常真实。



论文已被 NeurIPS 2024 接收,更多内容,请参考原论文。

本文转自机器之心。


END




欢迎加入「Transformer交流群?备注:TFM




跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

U-DiT 扩散模型 Transformer U-Net 图像生成
相关文章