生成不用“扩散”了？MeanFlow换轨平均速度，一步生成刷新加速上限

原创苏剑林 2025-08-07 23:22 北京

ODE不香了？

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 科学空间

研究方向 | NLP、神经网络

众所周知，生成速度慢是扩散模型一直以来的痛点，而为了解决这个问题，大家可谓“八仙过海，各显神通”，提出了各式各样的解决方案，然而长久以来并没一项工作能够脱颖而出，成为标配。什么样的工作能够达到这个标准呢？在笔者看来，它至少满足几个条件：

1. 数学原理清晰，能够揭示出快速生成的本质所在；

2. 能够单目标从零训练，不需要对抗、蒸馏等额外手段；

3. 单步生成接近 SOTA，可以通过增加步数提升效果。

根据笔者的阅读经历，几乎没有一项工作能同时满足这三个标准。然而，就在前段时间，arXiv 出了一篇《Mean Flows for One-step Generative Modeling》[1]（简称 “MeanFlow”），看上去非常有潜力。接下来，我们将以此为契机，讨论一下相关思路和进展。

现有思路

扩散模型的生成加速工作已经有非常多，本博客前面也简单介绍过一些。总的来说，加速思路大体上可以分为三类。

第一，将扩散模型转化为 SDE/ODE，然后研究更高效的求解器，代表作是 DPM-Solver [2] 及其一系列后续改进。

然而，这个思路通常只能将生成的 NFE（Number of Function Evaluations）降到 10 左右，再低就会明显降低生成质量。这是因为求解器的收敛速度通常都是正比于步长的若干次方，当 NFE 很小时步长就无法很小，所以收敛不够快以至于没法用。

第二，通过蒸馏将训练好的扩散模型转化为更少步数的生成器，由此衍生出来的工作和方案也非常多，我们此前介绍过其中的一种名为 SiD [3] 的方案。

蒸馏算是比较常规和通用的思路，但缺点也是共同的，即需要额外的训练成本，并非从零训练的方案。有些工作为了蒸馏到单步生成器，还加上了对抗训练等多重优化策略，整个方案往往过于复杂。

第三，基于一致性模型（Consistency Model，CM），包括我们在《生成扩散模型漫谈（二十八）：分步理解一致性模型》[4] 简单介绍的 CM、它的连续版本 sCM [5] 以及 CTM [6] 等。

CM 是自成一派的思路，可以从零训练得到 NFE 很小的模型，也可以用于蒸馏，但 CM 的目标依赖于 EMA 或者 stop_gradient 运算，意味着它耦合了优化器动力学，这通常给人一种说不清道不明的感觉。

瞬时速度

到目前为止，生成 NFE 最小的扩散模型，基本上都是 ODE，因为确定性模型往往更容易分析和求解。本文同样只关注 ODE 式扩散，所用框架是《生成扩散模型漫谈：构建 ODE 的一般步骤（下）》介绍的 ReFlow，它跟 Flow Matching [7] 本质是相通的，但更加直观。

ODE 式扩散，是希望学习一个 ODE

来构建一个的变换。具体来说，设是某个容易采样的随机噪声，则是目标分布的真实样本，我们希望能够通过上述 ODE，实现随机噪声到目标样本的变换，即随机采样一个作为初值，求解上述 ODE 得到的就是的样本。

如果将看成时间，看成位移，那么就是瞬时速度，所以 ODE 式扩散就是瞬时速度的建模。那怎么训练呢？ReFlow 提出了一种非常直观的方法：首先构建与的任意插值方式，如最简单的线性插值，那么对 t 求导得

这是个极简单的 ODE，但不符合我们的要求，因为是我们的目标，它不应该出现在 ODE 中。对此，ReFlow 提出一个非常符合直觉的想法——用去逼近：

这就是 ReFlow 的目标函数。值得指出的是：1）ReFlow 理论上允许与的任意插值方式；2）ReFlow 虽然直观，但理论上也是严格的，可以证明它的最优解确实是我们所求的 ODE。相关细节大家请参考《生成扩散模型漫谈：构建 ODE 的一般步骤（下）》以及原论文。

平均速度

然而，ODE 仅仅是一个纯数学形式，实际求解还是需要离散化，比如最简单的欧拉格式：

从 1 到 0 的 NFE 是，想要 NFE 小等价于大。然而，ReFlow 的理论基础是精确的 ODE，即精确求解 ODE 时才能实现目标样本的生成，这意味着越小越好，跟我们的期望相背。

尽管 ReFlow 声称使用直线插值可以让 ODE 的轨迹变得更直，从而允许更大的，但实际轨迹终究是弯曲的，很难接近1，所以 ReFlow 很难实现一步生成。

归根结底，ODE 本来就是的东西，我们非要将它用于，还要求它效果好，这本身就是“强模型所难”了。所以说，更换建模目标，而不是继续“为难”模型，才是实现更快生成的本质思路。为此，我们考虑对式（1）两端进行积分

如果我们可以建模

那么就有，即理论上可以精准地实现一步生成，而不必求诸于近似关系。如果说是 t 时刻的瞬时速度，那么很显然是时间段内的平均速度。

也就是说，为了加速生成甚至一步生成，我们的建模目标应该是平均速度，而不是 ODE 的瞬时速度。

恒等变换

当然，从瞬时速度到平均速度的转变并不难想，真正难的地方是如何给它构建损失函数。ReFlow 只告诉我们如何给瞬时速度构建损失函数，对平均速度的训练我们是一无所知。

接下来很自然的想法是“化未知为已知”，即以平均速度来为出发点来构建瞬时速度，然后代入 ReFlow 的目标函数，这需要我们去推导两者之间的恒等变换。从的定义我们得到

两边对求导，得到

这便是跟的第一个恒等关系。有第一自然就有第二，第二个恒等关系由平均速度的定义得到：

说白了，无限小区间内的平均速度，就等于瞬时速度。

第一目标

根据以及恒等式（9），我们可以将恒等式（8）的换成或者，前者是隐式关系，我们后面再谈，我们先看后者，此时有：

代入 ReFlow，我们得到可以用来训练的第一个目标函数：

这是一个非常理想的结果，它满足我们对生成模型目标函数的所有期望：

1. 单个显式的最小化目标；

2. 没有 EMA、stop_gradient 等运算；

3. 理论上有保证（ReFlow）。

这些特性意味着，不管我们用什么优化算法，只要我们能找到上式的最小值点，那么它就是我们想要的平均速度模型，即理论上能够实现一步生成的生成模型。

换句话说，它具备了扩散模型的训练简单和理论保证，又能像 GAN 那样一步生成，还不用求神拜佛保佑模型别“想不开”而训崩。

JVP 运算

不过，对于部分读者来说，目标函数（11）的实现还是有点困难的，因为它涉及到普通用户比较少见的“雅可比向量积（Jacobian-Vector Product，JVP）”。具体来说，我们可以将目标函数内方括号部分写成：

即的雅可比矩阵与给定向量的乘法，结果是一个跟大小一致的向量，这种运算就叫做 JVP，在 Jax、Torch 里边都有现成实现，比如 Jax 的参考代码是：

u = lambda xt, r, t: diffusion_model(weights, [xt, r, t])
urt, durt = jax.jvp(u, (xt, r, t), (u(xt, t, t), r * 0, t * 0 + 1))

其中 urt 就是，而 durt 就是对应的 JVP 结果，Torch 的用法也类似。了解 JVP 运算后，目标函数（11）的实现就基本上没有难度了。

第二目标

如果要说目标函数（11）的缺点，在笔者看来只有一个，那就是计算量相对偏大。这是因为它要进行两次不同的前向传播和，然后 JVP 求了一次梯度，用基于梯度下降优化时还要再求一次梯度，所以它本质上要求二阶梯度，跟以往的 WGAN-GP 类似。

为了降低计算量，我们可以考虑给 JVP 部分加上 stop_gradient 运算（）：

这样就避免了对 JVP 再次求梯度（但依然需要两次前向传播）。实测结果显示，相比第一目标（11），上述目标在梯度优化器下训练速度能够快将近一倍，并且效果目测无损。

注意，这里的 stop_gradient 单纯是出于减少计算量的目的，实际优化方向依然是损失函数值越小越好，这跟 CM 系列模型尤其是 sCM 是不一样的，它们的损失函数只是具有等效梯度的等效损失，并不一定是越小越好，它们的 stop_gradient 往往是必须的，一旦去掉几乎可以肯定会训练崩溃。