舍弃自回归，离散扩散语言模型如何演化？NUS综述解构技术图谱与应用前沿

本论文共同第一作者于润芃和李奇是新加坡国立大学 xML 实验室博士生，指导老师为王鑫超，研究方向是多模态大模型与可信深度模型。

本文主要介绍 xML 团队的论文：Discrete Diffusion in Large Language and Multimodal Models: A Survey。

论文链接：

https://arxiv.org/pdf/2506.13759

GitHub 仓库：

https://github.com/LiQiiiii/DLLM-Survey

自 GPT 引爆大语言模型热潮以来，自回归的大语言模型（LLMs）与多模态模型（MLLMs）已成为智能系统的基石。然而，当人们着眼于更快、更可控、更智能的生成范式时，一条新兴路径悄然浮现：离散扩散（Discrete Diffusion）。

本综述系统梳理了离散扩散方向的研究图谱，呈现了离散扩散语言模型（dLLMs）与离散扩散多模态语言模型（dMLLMs）的理论基础、代表模型、训练与推理技术，以及在推理、视觉、生物等多个领域的应用进展。

图 1 综述的框架结构与内容

自回归的局限与离散扩散的崛起

传统大模型采用自回归（Autoregressive, AR）架构，其从左至右逐词生成方式虽然自然，但存在显著的性能瓶颈：无法并行解码、难以精确控制输出、局限于对输入的静态感知、对补全和逆向推理的建模能力差。这使其在需要结构化控制与动态感知的复杂场景中表现受限。

离散扩散模型打破了这一范式。它不再逐词预测，而是将生成视为一个「掩码 - 去噪」迭代过程，并行处理所有 Token，并借助全局注意力机制实现动态感知。这种设计带来了三大核心优势：

推理并行性（Parallel Decoding）

离散扩散

模型最大的特点和优势。并行推理使得

离散扩散

每次迭代都可以解码出多个 Token，从而带来解码速度上的提升。

输出可控性（Controllability）与补全能力（Infilling）

动态感知能力（Dynamic Perception）

图 2 自回归模型与典型离散扩散模型的对比

离散扩散语言模型的数理基础

D3PM（Discrete Denoising Diffusion Probabilistic Models）框架是众多离散扩散数理模型的起点。D3PM 给出了在离散时间上、离散状态空间中的马尔可夫模型。整个模型由两个对偶过程构成：前向扩散过程和反向去噪过程。

在前向过程中，原始序列被逐步扰动为噪声表示，其转移机制由一系列时间依赖的转移矩阵控制，不同形式的对应不同的扩散行为。例如，均匀（Uniform）转移会将 Token 等概率扰乱；吸收态（Absorbing）转移则将所有 Token 都映射至特定的 [MASK] Token。因此，使用吸收态转移的扩散过程也被称为 Masked Diffusion，是当前 dLLM 和 dMLLM 中使用最多的一类。此外，还有基于嵌入相似度的扩散矩阵、带状（band-diagonal）或离散高斯转移等，增强模型在语义空间或局部结构中的建模能力。

反向过程则学习如何一步步去噪，还原出高质量文本。常见的，通过一个神经网络来预测原始 Token 的概率分布，再结合前向转移概率，从而构造出反向转移概率。训练时的损失函数由变分下界（ELBO）导出。在 Masked Diffusion 框架下，损失函数还可以被化简成加权的 Masked Language Modeling 损失。

在 D3PM 的基础上，连续时间扩散模型将离散时间步泛化为连续时间步，构建了在连续时间上离散状态空间的马尔可夫过程，通过引入速率矩阵来建模任意时刻的状态跃迁。Concrete Score 模型将反向过程的转移速率矩阵拆解为前向速率矩阵和联合概率比 c 的乘积，通过 Score Matching、基于 Bregman 散度的 Score Entropy 等损失函数来学习概率比 c。 Discrete Flow Matching 将流匹配思想引入到离散空间，在给定源目标分布和噪声分布之间，构造连续变化的概率路径。训练过程通过定义 Token 级速度场来驱动序列生成，配合交叉熵损失优化。

离散扩散语言模型生态概览

图 3 离散扩散模型的发展历程

随着离散扩散语言模型（dLLMs）快速崛起，近年来该领域涌现出一系列代表性模型。从早期探索性的轻量模型，到近期可比肩自回归 LLM 的离散扩散大模型，再到多模态与统一建模范式的拓展，离散扩散正逐渐演化为一条独立而完整的技术路径。综述将当前模型生态大致划分为以下四类：

1. 轻量级模型：早期的离散扩散模型参数量往往不超过 1B，代表作包括 D3PM、DiffusionBERT、RDM、Diffusion-NAT、TESS、SEDD、MDLM、MD4 等。这些模型重点在于探索基础的建模机制与去噪策略，验证离散扩散在文本和多模态生成任务上的可行性。

2. 大规模 dLLM：随着技术成熟，多个工作开始将扩散架构拓展至 10 亿以上参数量，构建具备完整语言理解与生成能力的「非自回归大模型」，代表模型包括：LLaDA 系列、DiffuGPT / DiffuLLaMA 和 DREAM 等。这些工作从规模上拓展了扩散语言模型的边界，系统性地探索了其工程可行性。

3. 多模态扩展（dMLLM）：在语言能力日趋完善之后，研究者开始探索 dLLMs 在多模态任务中的适应性，典型代表有：Dimple、LaViDa 和 LLaDA-V。

4. 统一生成模型：离散扩散在图片生成中的可行性很早就被验证了，随着语言生成能力的完善，MMaDA、FUDOKI 和 Muddit 等模型给出了一种统一的架构，使用离散扩散模型在一个神经网络中同时建模文本和视觉的生成。

训练与推理技术

方兴未艾的 dLLM 与 dMLLM 正在不断演进，伴随而来的还有训练与推理技术的持续创新。本综述系统地梳理并归纳了已有模型中采用的核心方法，同时也在不断收录和更新该领域的最新进展。

训练技术

离散扩散模型在训练过程中面临一系列独特挑战，包括语料利用率低、生成长度偏差（length bias）、随机时间采样带来的监督信号覆盖率低等。为解决这些问题，研究人员提出了多种创新性的训练机制。综述中主要归纳了以下几类：

初始化机制

互补掩码策略（Complementary Masking）

掩码调度（Masking Scheduling）函数

重加权策略（Reweighting）

知识蒸馏（Distillation）

这些技术从训练目标、数据使用到网络初始化等方面优化了扩散训练流程，使 dLLMs 得以在更大规模、更复杂任务上保持稳定、有效的训练表现。

图 4 几种掩码调度函数

推理技术

dLLMs 和 dMLLMs 的推理过程中的每一步都会对所有的 token 进行并行的同步预测，之后基于特定的规则来决定要保留哪些位置的预测。为兼顾生成质量与效率，研究人员提出了一系列推理技术。综述中主要归纳了以下几类：

Unmasking 策略

Remasking 技术

缓存机制（Caching）

Guidance 技术

这些推理技术不仅提升了生成效率，更赋予了 dLLMs 修正和控制的能力，逐步构建出具备实用价值的非自回归语言推理范式。

图 5 对 Unmasking 策略的展示

结语

除了以上内容，综述中也介绍了 dLLM 和 dMLLM 在生物、视觉、推理等方面的应用，探讨了其未来可能的发展方向。

随着大语言模型不断拓展其边界，离散扩散模型（dLLMs 与 dMLLMs）为传统自回归范式提供了强有力的替代路径。并行解码、结构控制与动态感知等优势使它们突破了自回归模型在效率与控制性上的瓶颈。从基础理论到工程优化，再到多模态与跨领域应用，离散扩散范式正在逐步走向成熟。

@misc {yu2025dllmsurvey,
title={Discrete Diffusion in Large Language and Multimodal Models: A Survey},

author={Runpeng Yu and Qi Li and Xinchao Wang},
year={2025},
eprint={2506.13759},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2506.13759},
}

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

文章原文

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签