我爱计算机视觉 2024年11月19日
NeurIPS 2024|单步生成:让扩散模型实现高速无损的内容生成
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了 NeurIPS 2024 论文『One-Step Diffusion Distillation through Score Implicit Matching』,该研究提出了一种名为 Score Implicit Matching (SIM) 的扩散模型蒸馏方法,能够将多步推理的扩散模型蒸馏为单步推理的生成模型,且生成质量无损。SIM 通过推导出一个易于优化的训练目标,使单步生成器的分布与预训练教师模型的分布相匹配。实验结果表明,SIM 在多个生成任务中表现出色,例如在 CIFAR10 和 PixArt-α 模型上都取得了优异的 FID 分数,并且在文本到图像生成中,SIM-DiT-600M 模型仅需一步就能生成高质量的图像。这项研究为高效生成模型的发展提供了新的思路,有望推动生成模型在更多领域的应用。

🤔**SIM算法的核心思想是通过隐式得分匹配,将多步推理的扩散模型蒸馏为单步推理的生成模型,从而减少计算成本和提高生成速度。**该算法推导出一个可优化的训练目标,其梯度与基于得分函数的散度相同,实现了单步生成模型与预训练教师模型的分布匹配。

🔄**SIM算法包含两个阶段的交替训练:在线扩散模型更新和学生模型参数更新。**在线扩散模型更新阶段固定单步生成模型参数,优化在线模型;学生模型参数更新阶段固定在线扩散模型参数,利用推导出的损失函数优化单步生成器。

📊**实验结果表明,SIM在CIFAR10和PixArt-α模型上都取得了显著的性能提升,FID值达到2.06/1.96。**在文本到图像生成任务中,SIM-DiT-600M模型仅需一步就能生成高质量图像,并在多个基准测试中取得了优异的性能。

🖼️**SIM-DiT-600M模型生成的图像质量与教师模型PixArt-α几乎相当,但推理速度大幅提升,将推理步数从几十步降低到一步。**这表明SIM算法在快速生成高质量图像方面具有巨大潜力。

💡**SIM算法在扩散模型蒸馏方面取得了重要进展,为快速生成高质量图像提供了新的解决方案。**未来,随着SIM方法的进一步研究和优化,其在更多领域的应用潜力将得到进一步释放,推动生成模型的发展。

MAPLE 2024-11-19 17:23 江苏




关注公众号,发现CV技术之美




本篇分享 NeurIPS 2024 论文One-Step Diffusion Distillation through Score Implicit Matching,单步生成:让扩散模型实现高速无损的内容生成。


引言

扩散模型(Diffusion Models, DMs)是一类通过逐步添加噪声来破坏数据分布并逆向生成数据的模型。这类模型在图像生成、文本到图像生成等领域表现出色,但其生成过程往往需要几十步的采样步骤,造成高昂的计算成本和较长的响应时间。这在实际应用中,尤其是在实时生成或移动设备上,是一个重要的限制。

随着对生成模型效率的需求不断增加,研究人员开始探索如何将预训练的扩散模型转化为高效的单步或少步生成模型。我们的研究聚焦于扩散模型蒸馏(Diffusion Distillation),通过优化策略实现单步生成图像,同时尽量保留与原始模型相近的生成能力。


单步扩散算法

我们提出的隐式得分匹配算法可以将多步推理的扩散模型蒸馏为单步推理的生成模型,并且在蒸馏后没有任何图像生成质量上的损失。这一算法的关键思想是推导出一个可优化的训练目标,同时其梯度与不可直接优化的基于得分函数的散度相同。一般的基于得分函数的散度定义如下,它可以用于将单步生成器的分布和预训练教师模型的分布进行匹配以优化单步生成器:

但实际由于这个损失函数很难直接优化,因此我们通过推导出得分散度梯度定理获得了一种等效但易于处理的训练目标,用于优化单步生成器,这一等效的训练目标可以表示为:

我们最终的训练算法包含了如下两个阶段的交替训练:

    在线扩散模型更新:在这一阶段,我们固定单步生成模型的参数,利用扩散模型的损失来优化在线模型。

    学生模型参数更新:在这一阶段,我们固定在线扩散模型的参数,通过上文提出的损失函数来优化单步生成器。


实验结果

为了验证隐式得分匹配这一蒸馏算法的有效性,我们在多个设置上进行了大量实验,包括小规模的CIFAR10 数据集和开放数据集上训练的文生图模型 PixArt-α 实验结果显示,我们的单步生成模型在无条件和有条件的生成中均显著优于其他蒸馏模型,达到2.06/1.96的 FID 值,显著优于其他蒸馏方法。

在文本到图像生成的实验中,我们选择了 DiT 架构的 PixArt-α 模型作为教师模型,应用我们的算法蒸馏出了 SIM-DiT-600M。与其他经过少步蒸馏的扩散模型相比,我们只需一步就能生成高质量的图像,并在多个基准测试中取得了优异的性能。这些结果展示了我们的蒸馏算法在快速生成和高质量样本方面的潜力。

下图我们对比了 SIM-DIT-600M 和其他单步与少步生成的蒸馏工作,最左侧是我们生成的图像,可以看出我们的蒸馏模型与其他的模型相比具有更强的生成质量以及美学效果。

下图最右侧是 LCM-PixArt-α生成的结果,左边两侧的图由教师模型 PixArt-α和我们蒸馏后的模型生成并打乱排列顺序。我们的蒸馏后的模型有几乎和原模型相当的生成质量,并且将推理步数从几十步降低到只需要单步推理


结论

本文介绍了 Score Implicit Matching(SIM) 方法在扩散模型蒸馏中的应用,展示了如何通过新颖的基于得分函数的散度训练来实现单步生成。实验结果验证了 SIM 在多个生成任务 中的优越性能,标志着在快速生成和高质量样本方面的一个重要进展。未来,随着对 SIM 方法的进一步研究和优化,我们相信其将在更多领域展现出更大的应用潜力,推动生成模型的发展。

撰稿:黄泽敏,罗维俭
编辑:姜天欣

最新 AI 进展报道
请联系:amos@52cv.net


END




欢迎加入「图像生成交流群?备注:生成




跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

扩散模型 蒸馏 单步生成 图像生成 NeurIPS
相关文章