智源社区 2024年12月24日
抽卡效率提升4.8倍!东北大学等开源优化版Stable-Diffusion.cpp:分辨率越高越快,生成质量更好
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Stable Diffusion作为AI图像生成领域的里程碑工具,其高质量图像生成能力广受欢迎。然而,高资源消耗限制了其在硬件受限设备上的应用。为解决此问题,北京大学、东北大学、佐治亚大学的研究团队推出了Stable-Diffusion.cpp(Sdcpp)优化方案。该方案引入Winograd算法和多项优化策略,包括分步处理、局部优化和并行处理,显著提升了图像生成速度,最高可达4.79倍。优化后的Sdcpp不仅加速了模型运行,还减少了内存占用,支持多种设备和模型,为用户带来更高效、更自由的创作体验。

🚀 Winograd算法引入: 通过引入Winograd算法,Sdcpp中的卷积操作得到革命性改进,显著提升了性能与资源利用率。

🧮 三大优化策略: 分步处理将卷积拆解为预处理、逐元素乘法和后处理阶段;局部优化通过调整数据加载方式减少缓存交换;并行处理则将运算动态分配到不同线程和核心,充分利用硬件性能。

🖼️ 性能显著提升: 优化后的Sdcpp在单卷积层推理速度平均提升超过2倍,整图生成速度最高提升达4.79倍,尤其是在高分辨率图像生成上,加速效果更为明显。同时,生成的图像也更加细腻逼真。

💻 多设备模型支持: 优化后的Sdcpp框架支持多种设备(如Mac、Android、AMD)和模型(如SDv1.4、v1.5、v2.1、SDXL 和 SDXL-Turbo),并支持LoRA和算子量化,为用户提供更高的灵活性。

编辑:LRST
在AI生成图像领域,Stable Diffusion已经成为一个里程碑式的工具,凭借其强大的图像生成能力,被广泛应用于艺术创作、商业设计等领域。

然而,生成高质量图像的过程常常需要付出大量的时间和内存,这对于硬件资源有限的设备来说是一大挑战。

为了应对这一问题,北京大学、东北大学、佐治亚大学发布了Stable-Diffusion.cpp(简称Sdcpp)的优化方法,引入了Winograd算法和三个优化策略,最终整图生成速度最高可达到4.79倍,从此实现创作自由!

论文链接:https://arxiv.org/pdf/2412.05781

项目主页:https://github.com/SealAILab/stable-diffusion-cpp

Sdcpp是Stable Diffusion模型的C/C++实现,旨在无需外部依赖的情况下在CPU(以及可能配置GPU)上实现高效推理。Sdcpp作为一个高效的推理框架,不仅能够显著加速模型的运行,还能大幅减少内存占用。

Sdcpp的实现中,计算密集型的2D卷积运算是图像生成的主要瓶颈,虽然功能强大,但效率却不够理想,推理速度较慢,内存占用高。

为了解决这些问题,研究人员在Sdcpp的基础上,引入了Winograd算法,对Sdcpp中的卷积操作进行了革命性的改进,最终实现了性能与资源利用率的双提升。

主要优化策略为:

    分步处理:将卷积拆解为滤波器和激活权重的预处理、预处理张量的逐元素乘法和中间结果的后处理三个阶段,提高运算效率。


    局部优化:通过调整数据加载方式(散点存储和聚集加载优化),减少 L1 缓存的切换,最大限度地减少缓存交换,提升内存使用效率。


    并行处理:分析算子间的关联性,将关联性较小的运算动态分配到不同的计算线程与核心上,充分利用多线程和多核心架构,动态分配计算任务,充分发挥硬件性能,减少图像生成延迟。


尤其是在M系列Mac设备上,优化了性能核心(P-core)和效率核心(E-core)的分工,使推理速度得到了显著提升。

多设备、多模型支持

优化后的Sdcpp框架支持多个设备和模型,包括:
    主流Stable Diffusion模型:SDv1.4、v1.5、v2.1、SDXL和SDXL-Turbo;
    不同硬件平台:Mac、Android、AMD等;

    扩展模块:如支持LoRA,以及支持算子量化等,为用户提供更高的灵活性。


此外,该框架还支持并且优化了diffusion transformer模型中的算子,进一步拓展了应用场景。

速度提升,快!

通过实际测试,优化成果令人振奋!

单卷积层的加速表现:对于多种卷积层配置,推理速度平均提升超过2倍!

研究人员测试了在一些在SD生成图片过程中出现比较频繁的卷积层,计算了在这些单卷积层上,优化的Sdcpp相较于原版Sdcpp的加速效果。在不同的卷积层上,推理速度提升至少达到2倍。

整图生成速度对比:最高加速比达到4.79倍!

 图像分辨率越大,方法的加速效果越明显。在生成1024×1024分辨率图像时,相比于原版Sdcpp,优化后的Sdcpp在M1 Pro以及M2 Max上的推理速度提升可超过4.6 倍(FP32 类型)。

 对于其他图像尺寸和SD模型,优化的Sdcpp的加速效果也十分显著(如SDv1.5模型生成512×512图像时在M1 Pro上加速1.84 倍)。

 显著的加速比主要得益于框架的局部优化(降低缓存交换并且提高内存使用效率),以及并行处理(动态分配计算任务并且提高运算并行度)。


更快的速度,不仅节省时间,更让创作更自由!

实例展示:更真实的生成效果

下图展示了使用 SDXL-Turbo 模型,原版Sdcpp以及我们优化的Sdcpp使用5步采样,所生成的图像对比:

可以看出,在相同配置和提示词下,优化后的Sdcpp不仅速度更快,生成的图像也更加细腻逼真,细节丰富,层次分明。

优化的Sdcpp能够支持不同硬件平台上(Mac、Android、AMD 等)各种主流SD模型(如SDv1.4、v1.5、v2.1、SDXL 和 SDXL-Turbo)的所有算子,确保使用这些SD模型能够生成高质量的图片。

该框架还会不断进步,研究人员计划优化更多操作符,提升兼容性;进一步提高模型量化的效率;探索在更多设备上的性能提升。

参考资料:
https://arxiv.org/abs/2412.05781



内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Stable Diffusion Sdcpp Winograd算法 图像生成 性能优化
相关文章