夕小瑶科技说 2024年10月24日
0.11秒出图!OpenAI发布sCM模型,提速50倍,作者来自清华
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI推出新的生成式模型sCM,支持多类型内容生成,性能惊人,速度比传统扩散模型快50倍,效果与Diffusion模型相近。还介绍了其研究动机、关键改进、实验分析及结语等内容。

🎯sCM是OpenAI推出的全新生成式模型,支持视频、图像、三维模型和音频的生成,性能优异,速度大幅提升,最大号的1.5B参数模型在单卡A100上生成一张图片只需0.11秒。

💡sCM的研究动机是解决扩散模型的低效率问题,提出改进训练模式,学习函数将带噪声图像映射到更清晰版本,关键改进包括时间条件策略等多个方面。

📊研究团队对sCM进行了实验分析,在多个图像数据集上进行测试,展示了其在采样过程、生成速度、质量等方面的优势,如在标准FID评分上表现出色。

原创 小鹿 2024-10-24 13:17 北京

 夕小瑶科技说 原创
 作者 | 小鹿

家人们,OpenAI 又上新了!

这次他们推出了全新的生成式模型sCM(Simplifying Continuous-Time Consistency Models),支持视频、图像、三维模型和音频的生成。

这款模型的性能非常惊人,与传统的扩散模型相比,生成同等质量内容的速度提高了惊人的50倍!最大号的 1.5B 参数模型,在单卡 A100 上生成一张图片只需 0.11 秒!而且效果与Diffusion模型相近。

如下图所示,几乎同样的时间,扩散模型还是一团马赛克,sCM已经开始初见雏形了!

OpenAI同时发布了研究论文,两位华人作者全都毕业于清华。

论文链接
https://arxiv.org/pdf/2410.11081

官方博客
https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/

研究动机

尽管在扩散模型为生成式人工智能带来了巨大的突破,使得生成逼真的图像、3D模型、音频和视频成为可能,但其低效率仍是一个待解决的问题。

扩散模型的采样过程通常需要数十甚至数百步才能生成一个样本,这极大地限制了其在实际应用中的效率和可扩展性。而为了提高扩散模型生成的效率,研究人员们提出了各种蒸馏技术加速采样,但这些技术可能导致计算成本过高、训练过程复杂和样本质量下降等新问题。而连续模型(Consistency Models, CMs)又引入了额外的超参数,容易产生离散误差。

因此,sCM的研究团队提出改进扩散模型的训练模式,学习一个函数,将带噪声的图像映射到其在PF-ODE轨迹上的下一个时间步的更清晰版本。这种方法不是一步到位地去除所有噪声,而是根据PF-ODE的方向,逐步将图像向更清晰的方向推进。在两步采样的情况下,sCM会进行两次这样的映射,最终得到一个相对更清晰的图像。

关键改进

sCM的核心理念在于一致性,旨在使模型在连续时间步的输出保持一致性,通过学习 PF-ODE 的单步解析,sCM 能够直接将噪声转化为清晰图像,实现一步到位的转换。主要改进点包括:

实验分析

研究团队在多个图像数据集进行了实验分析,包括CIFAR-10、ImageNet 64×64和ImageNet 512×512等。

在可视化分析中,路径的展示非常清晰:蓝线代表扩散模型逐步进行的采样过程,而红线则显示了一致性模型更加直接和快速的采样方法。通过采用一致性训练或一致性蒸馏技术,sCM能够有效地训练出一致性模型,显著减少了生成高质量样本所需的步骤数量。

目前研究团队训练的最大的sCM模型拥有15亿个参数。在一台未经过推理优化的A100 GPU上,生成一个样本的时间仅需0.11秒。通过对硬件和系统进行定制化优化,可以进一步提高生成速度,使得在图像、音频、视频等多个领域的实时生成成为可能。

sCM模型在标准的FID(Fréchet Inception Distance)评分上表现出色,分数越低表示质量越高。此外,sCM模型在有效采样计算量方面也表现优异,即生成每个样本所需的总计算成本。如下图所示,使用2步sCM生成的样本在质量上与当前最佳方法相当,而所需的有效采样计算量不到10%,极大地提高了采样效率。

结语

sCM通过改进的架构和训练目标,简化并稳定了连续时间一致性模型的训练过程,使其能够有效地扩展到拥有15亿参数的ImageNet 512×512规模。这些改进结合起来,不仅提高了在不同数据集和模型规模上的性能,而且在大规模应用中表现出了优于其他少步采样方法的可预测的扩展性。此外,研究团队也指出,在未来的研究中,根据特定应用的需求,评估sCM的质量可能需要采用不同的方法。


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI sCM 生成式模型 效率提升
相关文章