对于想要大概了解 Flow Matching 的童鞋，推荐 MIT 的这门小课 https://diffusion.csail.mit.edu/，对于核心概念讲解清晰且符合物理直觉。flow matching 的原理...

AI探索站 - 即刻圈子前天 18:14

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

本文以易懂的方式介绍了Flow Matching，一种新兴的文生图技术。与Diffusion模型不同，Flow Matching 通过学习一个向量场（可以想象成磁场）来“推移”随机噪声点，使其逐渐变成真实的图像。文章将文生图的过程比作“磁场”推动“沙堆”的过程，解释了如何通过神经网络学习向量场，以及如何利用条件向量场来指导图像生成。作者还分享了MIT相关课程的链接和个人作业截图，以佐证其对Flow Matching 原理的理解。

💡Flow Matching 的核心思想：是将文生图过程理解为从随机正态分布采样点到真实图像的“推移”过程，通过学习向量场（磁场）来引导这一过程。

🧭向量场的学习：神经网络学习的是在每个时间点、每个位置，磁场力的方向，即“沙子”应该往哪个方向移动。通过大量训练数据不断调教神经网络，使其学习到期望的向量场。

📚条件向量场的作用：对于给定的图像，条件向量场预先设计好了“想要成为它的沙子”在特定时间和位置的磁场力方向，从而指导神经网络的学习。

对于想要大概了解 Flow Matching 的童鞋，推荐 MIT 的这门小课 https://diffusion.csail.mit.edu/，对于核心概念讲解清晰且符合物理直觉。flow matching 的原理我感觉比 diffusion 更易理解（而且还SOTA :D）。讲一下我从小白视角的理解：
文生图（无 condition）的过程，我们可以理解成是从一个纯随机的正态分布采样一个点，逐渐把它变成很“真”的一张图片。diffusion 是逐渐把采样到的这个“白噪音”点不断“去噪”，变成一张图片。而 flow matching，是让一个“磁场”去推着这个点不断移动，最终“移动”变成一张图片（想象图片 vector 各个维度的数值有加有减不断变化）。
稍微展开来说，flow matching 本质上是在学习一个 vector field/向量场（一个vector field定义一个ODE），可以把它想象成一个磁场。一开始我们只有一个符合正态分布的“沙堆”，我们的目标是逐渐”推移“这个沙堆，让它最终的分布符合我们要的分布（真实世界的图片）。对于每粒沙子在每个时间点、每个位置，磁场力的方向（往哪个方向推）就是我们要 neural network 学习的东西。一粒沙子从初始位置到目标位置”被磁场推着“经过的路，就是一个 flow（ODE 的一个解），不同沙子走出了多条 flow 形成多个训练数据不断调教 NN 去学习磁场里的方向，大量平均下来就是我们想要的磁场/模型。
细心的童鞋可能会问，那 NN 咋知道往哪推啊？给定了一张图片，对于”想要成为它的沙子“，在一个时间点和一个位置，我们磁场力的方向是提前设计好的（conditional vector field），这样 NN 对于一个样本往哪推是知道的。我们不知道的是大量这样的数据，最终让 NN 平均下来会学成个啥样，即 marginal vector field（就是我们想要的）。
最后附几张作业截图证明我不是瞎吹牛（btw 作业很简单）

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签