掘金 人工智能 05月30日 12:28
谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Fast-dLLM 是一项针对扩散语言模型(Diffusion LLM)的创新加速方案,由 NVIDIA 等机构联合推出。它通过分块 KV 缓存和置信度感知并行解码技术,在无需重新训练模型的前提下,显著提升了推理速度。在长文本生成任务中,Fast-dLLM 实现了高达 27.6 倍的端到端加速,且在主流基准测试中,准确率损失控制在 2% 以内。该方案即插即用,为扩散模型在实际应用中的推广提供了更可行的解决方案。

🔄 分块 KV 缓存:Fast-dLLM 采用双向缓存策略,同时缓存前缀和后缀的注意力激活值,实现激活重用,显著降低单步计算量。实验表明,在 LLaDA 模型中,该技术可实现 90% 以上的激活重用率。

✅ 置信度感知并行解码:该技术仅对置信度超过阈值的 token 进行并行解码,保证生成质量的同时,提升了并行输出 token 的数量。通过数学证明,确保了并行解码与顺序解码结果的一致性,保证了生成逻辑的连贯性。

🚀 性能突破:在 LLaDA 模型上,针对 1024 token 的长文本生成任务,Fast-dLLM 实现了 27.6 倍的端到端加速。在 GSM8K 和 HumanEval 等基准测试中,Fast-dLLM 在保持高准确率的同时,也提升了吞吐量。

💡 无需训练的即插即用方案:Fast-dLLM 无需重新训练模型,即可实现推理加速。这使得它能够快速集成到现有系统中,提升扩散模型的推理效率,缩短长文本生成耗时。

在大语言模型(LLM)领域,推理效率是制约其实际应用的关键因素之一。谷歌 DeepMind 的 Gemini diffusion 曾以 1400 tokens / 秒的生成速度震惊学界,展现了扩散模型在并行生成上的潜力。然而,开源扩散 LLM 却因缺乏 KV 缓存机制和并行解码质量衰退,实际推理速度长期被自回归模型压制.

近日,NVIDIA 联合香港大学、MIT 等机构重磅推出 Fast-dLLM,以无需训练的即插即用加速方案,实现了推理速度的突破!

通过创新的技术组合,在不依赖重新训练模型的前提下,该工作为扩散模型的推理加速带来了突破性进展。本文将结合具体技术细节与实验数据,解析其核心优势。

一、 核心技术

分块 KV 缓存与置信度感知并行解码

    分块 KV 缓存(Block-Wise KV Cache):激活重用率超 90% 的双向加速

传统扩散模型因双向注意力机制难以直接复用计算结果,导致长序列推理效率低下。Fast-dLLM 提出分块 KV 缓存机制,通过以下设计实现高效计算:

    置信度感知并行解码(Confidence-Aware Parallel Decoding) 

并行解码虽能提升速度,但条件独立假设易破坏 token 依赖关系,比方说这个例子 The list of poker hands that consist of two English words are: _ _.。后续两个单词可以是 “high card,” “two pair,” “full house,” 或者是 “straight flush.”。值得注意的是,这两个单词之间存在关联。

然而,MDMs 中的多令牌预测过程首先为每个令牌生成一个概率分布,然后从这些分布中独立采样。这种独立采样可能导致不理想的组合(如生成 “high house” 等无效组合)。Fast-dLLM 通过动态置信度筛选解决这一问题(所谓置信度,是指模型给 token 赋予的概率大小):

    伪代码:分块 KV 缓存与置信度感知并行解码流程

以下是 Fast-dLLM 算法的核心伪代码,结合了分块 KV 缓存以及置信度感知并行解码,无需训练就可以在现有的开源 Diffusion LLM(如 LLaDA、Dream)上即插即用进行推理加速。 

二、 性能突破

速度与精度的均衡优化

    长文本生成:27.6 倍端到端加速

在 LLaDA 模型上,针对 1024 token 的长文本生成任务,Fast-dLLM 将单步延迟从 0.26 秒降至 0.09 秒,整体耗时从 266 秒压缩至 12 秒,实现 27.6 倍端到端加速。这一提升在代码生成、数学推理等长序列场景中尤为显著,例如 8-shot 提示的 GSM8K 任务中,加速后仍能保持 76% 的准确率。

    精度保持:损失 < 2% 的基准测试表现

在主流基准测试中,Fast-dLLM 的准确率损失控制在 2% 以内:

三、 应用价值

无需训练的即插即用方案

Fast-dLLM 的零训练成本特性使其成为理想的推理优化工具,能够快速集成到现有的系统中。对于那些已经在使用扩散模型的企业和开发者来说,可以在不改变模型架构和训练流程的基础上,直接利用 Fast-dLLM 提升推理效率,缩短长文本生成耗时,为实际部署提供更可行的方案。

四、 总结与展望

Fast-dLLM 通过分块 KV 缓存与置信度感知并行解码的创新组合,实现了扩散模型推理效率的跨越式提升,同时保持了生成质量的稳定性。其技术设计为非自回归生成模型提供了新的优化范式,有望推动扩散模型在实时交互、长文本生成等场景中的广泛应用。未来,随着模型规模的扩大和蒸馏技术的深化,Fast-dLLM 或将进一步缩小与自回归模型的性能差距,成为 LLM 推理加速的核心方案之一。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Fast-dLLM 扩散模型 推理加速 KV缓存
相关文章