本论文共同第一作者于润芃和李奇是新加坡国立大学 xML 实验室博士生,指导老师为王鑫超,研究方向是多模态大模型与可信深度模型。
本文主要介绍 xML 团队的论文:Discrete Diffusion in Large Language and Multimodal Models: A Survey。
- 论文链接:https://arxiv.org/pdf/2506.13759GitHub 仓库:https://github.com/LiQiiiii/DLLM-Survey
自 GPT 引爆大语言模型热潮以来,自回归的大语言模型(LLMs)与多模态模型(MLLMs)已成为智能系统的基石。然而,当人们着眼于更快、更可控、更智能的生成范式时,一条新兴路径悄然浮现:离散扩散(Discrete Diffusion)。
本综述系统梳理了离散扩散方向的研究图谱,呈现了离散扩散语言模型(dLLMs)与离散扩散多模态语言模型(dMLLMs)的理论基础、代表模型、训练与推理技术,以及在推理、视觉、生物等多个领域的应用进展。
自回归的局限与离散扩散的崛起
传统大模型采用自回归(Autoregressive, AR)架构,其从左至右逐词生成方式虽然自然,但存在显著的性能瓶颈:无法并行解码、难以精确控制输出、局限于对输入的静态感知、对补全和逆向推理的建模能力差。这使其在需要结构化控制与动态感知的复杂场景中表现受限。
离散扩散模型打破了这一范式。它不再逐词预测,而是将生成视为一个「掩码 - 去噪」迭代过程,并行处理所有 Token,并借助全局注意力机制实现动态感知。这种设计带来了三大核心优势:
- 推理并行性(Parallel Decoding): 并行推理是离散扩散模型最大的特点和优势。并行推理使得离散扩散每次迭代都可以解码出多个 Token,从而带来解码速度上的提升。输出可控性(Controllability)与补全能力(Infilling): 掩码 - 去噪的解码机制,使得每一次回答都可以预设回答的长度、格式、结构,为回答设定一个模板。动态感知能力(Dynamic Perception): 全局注意力机制下模型对左侧 Token 的处理受到右侧 Token 的影响;多轮迭代的解码机制使得对所有 Token 的处理都可以反复多次进行。这使得 dLLM 和 dMLLM 可以对长语料和多模态输入进行多轮、有条件的动态感知,而不是如单向注意力一样仅仅能够感知一次。
离散扩散语言模型的数理基础
D3PM(Discrete Denoising Diffusion Probabilistic Models)框架是众多离散扩散数理模型的起点。D3PM 给出了在离散时间上、离散状态空间中的马尔可夫模型。整个模型由两个对偶过程构成:前向扩散过程和反向去噪过程。
在前向过程中,原始序列被逐步扰动为噪声表示,其转移机制由一系列时间依赖的转移矩阵控制,不同形式的对应不同的扩散行为。例如,均匀(Uniform)转移会将 Token 等概率扰乱;吸收态(Absorbing)转移则将所有 Token 都映射至特定的 [MASK] Token。因此,使用吸收态转移的扩散过程也被称为 Masked Diffusion,是当前 dLLM 和 dMLLM 中使用最多的一类。此外,还有基于嵌入相似度的扩散矩阵、带状(band-diagonal)或离散高斯转移等,增强模型在语义空间或局部结构中的建模能力。
反向过程则学习如何一步步去噪,还原出高质量文本。常见的,通过一个神经网络来预测原始 Token 的概率分布,再结合前向转移概率,从而构造出反向转移概率。训练时的损失函数由变分下界(ELBO)导出。在 Masked Diffusion 框架下,损失函数还可以被化简成加权的 Masked Language Modeling 损失。
在 D3PM 的基础上,连续时间扩散模型将离散时间步泛化为连续时间步,构建了在连续时间上 离散状态空间的马尔可夫过程,通过引入速率矩阵来建模任意时刻的状态跃迁。Concrete Score 模型将反向过程的转移速率矩阵拆解为前向速率矩阵和联合概率比 c 的乘积,通过 Score Matching、基于 Bregman 散度的 Score Entropy 等损失函数来学习概率比 c。 Discrete Flow Matching 将流匹配思想引入到离散空间,在给定源目标分布和噪声分布之间,构造连续变化的概率路径。训练过程通过定义 Token 级速度场来驱动序列生成,配合交叉熵损失优化。
离散扩散语言模型生态概览
随着离散扩散语言模型(dLLMs)快速崛起,近年来该领域涌现出一系列代表性模型。从早期探索性的轻量模型,到近期可比肩自回归 LLM 的离散扩散大模型,再到多模态与统一建模范式的拓展,离散扩散正逐渐演化为一条独立而完整的技术路径。综述将当前模型生态大致划分为以下四类:
1. 轻量级模型:早期的离散扩散模型参数量往往不超过 1B,代表作包括 D3PM、DiffusionBERT、RDM、Diffusion-NAT、TESS、SEDD、MDLM、MD4 等。这些模型重点在于探索基础的建模机制与去噪策略,验证离散扩散在文本和多模态生成任务上的可行性。
2. 大规模 dLLM:随着技术成熟,多个工作开始将扩散架构拓展至 10 亿以上参数量,构建具备完整语言理解与生成能力的「非自回归大模型」,代表模型包括:LLaDA 系列、DiffuGPT / DiffuLLaMA 和 DREAM 等。这些工作从规模上拓展了扩散语言模型的边界,系统性地探索了其工程可行性。
3. 多模态扩展(dMLLM):在语言能力日趋完善之后,研究者开始探索 dLLMs 在多模态任务中的适应性,典型代表有:Dimple、LaViDa 和 LLaDA-V。
4. 统一生成模型:离散扩散在图片生成中的可行性很早就被验证了,随着语言生成能力的完善,MMaDA、FUDOKI 和 Muddit 等模型给出了一种统一的架构,使用离散扩散模型在一个神经网络中同时建模文本和视觉的生成。
训练与推理技术
方兴未艾的 dLLM 与 dMLLM 正在不断演进,伴随而来的还有训练与推理技术的持续创新。本综述系统地梳理并归纳了已有模型中采用的核心方法,同时也在不断收录和更新该领域的最新进展。
训练技术
离散扩散模型在训练过程中面临一系列独特挑战,包括语料利用率低、生成长度偏差(length bias)、随机时间采样带来的监督信号覆盖率低等。为解决这些问题,研究人员提出了多种创新性的训练机制。综述中主要归纳了以下几类:
- 初始化机制:使用已经训练好的 BERT 模型或者 AR 模型作为训练起点,或者对模型首先进行 AR 训练再进行扩散训练。典型的模型包括 DiffuLLaMA、DiffuGPT 和 Dimple 。这一类初始化技术化能够加速训练过程,保证模型性能,在资源受限的训练时效果显著。互补掩码策略(Complementary Masking):为提升语料使用效率,构造一对互补的掩码样本,两次掩码的位置互斥,但是拼起来可以使所有 Token 都被覆盖,从而解决信息利用稀疏问题。典型的模型包括 LaViDa 和 DiffuCoder。掩码调度(Masking Scheduling)函数:掩码调度函数决定了训练过程中各个时间步上掩码比例的大小。在训练过程中既可以为所有的 Token 设置统一的调度函数,也可以针对各个 Token 设置不同的调度函数。在线性调度函数下,掩码比例随时间线性变化,使每一步加噪的 Token 数量大致相同。在凸(convex)调度函数下,掩码函数斜率的绝对值先大后小,在时间步不大时就能够掩码大量的 Token,从而使得模型训练时能够接触到更 noisy 的样本,也鼓励推理时从慢到快,每一步解码出来的 Token 数量先少后多。重加权策略(Reweighting):对不同 Token 处的损失函数值进行调整,强化对特定 Token 的学习。比如,MGDM 提升损失函数大的 Token 的权重,提升对困难位置的关注,加速收敛。知识蒸馏(Distillation): 通过知识蒸馏实现对推理步数的压缩,将多步的「教师模型」知识传递给步数更少的「学生模型」。
这些技术从训练目标、数据使用到网络初始化等方面优化了扩散训练流程,使 dLLMs 得以在更大规模、更复杂任务上保持稳定、有效的训练表现。
推理技术
dLLMs 和 dMLLMs 的推理过程中的每一步都会对所有的 token 进行并行的同步预测,之后基于特定的规则来决定要保留哪些位置的预测。为兼顾生成质量与效率,研究人员提出了一系列推理技术。综述中主要归纳了以下几类:
- Unmasking 策略决定「什么时候生成什么」。推理中每轮只会保留对部分 Token 的预测,Unmasking 策略负责决定解哪里、解多少。解码的位置既可以是随机选取,也可以是度量驱动(Metric-based),根据模型置信度、负熵等指标优先解码「最确定」的位置。每一步解码的 Token 数量可以设置为固定值,也可以根据训练时的调度函数计算得到。如果使用了度量驱动的解码策略,还可以使用 Confident Decoding 算法,通过阈值动态调整每一步解码出来的 Token 数量。Remasking 技术实现「修正」,解决吸收态扩散模型「写完不能改」的局限。Remasking 允许将已经解码出来的 Token 再次设置为 [Mask],从而对回答进行修改,实现 Test-Time-Scaling。缓存机制(Caching):AR 框架下的 Prefilling 和 KV-Cache 机制也被引入了 dLLM 和 dMLLM 中,通过缓存注意力计算的中间结果,并选择性动态更新,以加速生成。Guidance 技术:类比于连续扩散模型中的 Guidance 机制,Classifier-Free Guidance、Reward Guidance、Energy-Based Guidance 等技术也被应用在离散扩散模型中,实现对模型输出的定向调整。
这些推理技术不仅提升了生成效率,更赋予了 dLLMs 修正和控制的能力,逐步构建出具备实用价值的非自回归语言推理范式。
结语
除了以上内容,综述中也介绍了 dLLM 和 dMLLM 在生物、视觉、推理等方面的应用,探讨了其未来可能的发展方向。
随着大语言模型不断拓展其边界,离散扩散模型(dLLMs 与 dMLLMs)为传统自回归范式提供了强有力的替代路径。并行解码、结构控制与动态感知等优势使它们突破了自回归模型在效率与控制性上的瓶颈。从基础理论到工程优化,再到多模态与跨领域应用,离散扩散范式正在逐步走向成熟。
@misc {yu2025dllmsurvey,
title={Discrete Diffusion in Large Language and Multimodal Models: A Survey},
author={Runpeng Yu and Qi Li and Xinchao Wang},
year={2025},
eprint={2506.13759},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2506.13759},
}
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com
文章原文