2025-01-24 12:31 江苏

关注公众号，发现CV技术之美

本篇分享 AAAI-2025 论文SiTo: Training-Free and Hardware-Friendly Acceleration for Diffusion Models via Similarity-based Token Pruning，上海交通大学提出 SiTo，通过基于相似性的令牌剪枝为扩散模型提供无需训练且硬件友好的加速。

论文链接：https://www.researchgate.net/publication/387204421_Training-Free_and_Hardware-Friendly_Acceleration_for_Diffusion_Models_via_Similarity-based_Token_Pruning

项目链接：https://github.com/EvelynZhang-epiclab/SiTo

介绍

SiTo：加速扩散模型的创新解决方案

先前的研究者们通常通过减少采样步数或压缩去噪网络等方式来降低扩散模型的计算开销。然而，这些方法往往在一定程度上牺牲了生成质量。SiTo提出了一种全新的思路，它通过引入基础令牌 (Base Token) 概念，自适应地剪去冗余的令牌，从而在保证高质量生成结果的同时实现显著加速。

SiTo的三大核心创新

(I) 最大相似性：基础令牌与所有其他令牌具有最高相似性，剪枝令牌则选择与基础令牌相似度最高的令牌，从而最小化恢复误差。

(II) 均匀空间分布：基础令牌在图像的不同局部区域均匀分布，相邻令牌的相似性较高，用空间相邻的令牌恢复剪枝令牌更为合适，避免了误差集中。

(III) 带有随机性的选择：为避免相邻时间步中令牌的重复剪枝，加入高斯噪声使基础令牌选择带有随机性，减少了剪去相同令牌的比例，从而有效避免了不平衡剪枝导致的质量下降。

如下图(b)所示，由于剪枝令牌是通过直接复制其最相似的基础令牌来恢复的，这些剪枝令牌往往会在所有后续的去噪步骤中保持较高的相似性，因此它们很可能在几乎所有的时间步中都被剪枝。这种极度不平衡的令牌剪枝可能会导致生成质量的显著下降。

为了解决这个问题，提出在不同令牌的相似度上添加高斯噪声，在基础令牌选择过程中引入随机性。如下图(a)所示，这种方法将相邻两个时间步中剪去相同令牌的比例从97%降低到72%，有效避免了不平衡剪枝问题。

SiTo的显著优势

无损加速，内存压缩

SiTo的应用效果显著，尤其在COCO30K和ImageNet数据集上，展示了强大的加速效果和内存压缩能力。例如，在Stable Diffusion v1.5中，应用SiTo方法后，加速达1.9倍，同时实现了2.7倍的内存压缩，并且FID值降低了1.33，不仅加速了推理过程，还提升了生成质量。

硬件友好，低计算开销

SiTo操作低成本、低内存占用，适合在GPU等硬件平台上并行计算，特别适用于边缘设备和实时应用。

训练无关，数据无依赖

SiTo不依赖训练或校准数据，免去额外训练步骤，具有极强的通用性和即插即用性，可广泛应用于不同数据集、模型和采样设置。

方法

SiTo的方法流程

基础令牌选择：

计算所有令牌之间的余弦相似度。对于每个令牌，将它与所有其他令牌的相似度求和，得到该令牌的相似度得分（SimScore）。接着，向相似度得分中添加高斯噪声，以引入随机性，防止在不同时间步中选择相同的基础令牌和剪枝令牌。最后，选择在图像区域中具有最高噪声相似度得分（Noise SimScore）的令牌作为基础令牌。

剪枝令牌选择：

选择与基础令牌最相似的令牌作为剪枝令牌。

剪枝令牌恢复：

将未剪枝的令牌输入到神经网络层，然后通过从最相似的基础令牌中复制来恢复剪枝令牌。