智源社区 07月24日 17:19
四款扩散大语言模型全部破防?上交&上海AI Lab发现致命安全缺陷
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

最新研究《The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs》揭示了扩散语言模型(dLLMs)在安全方面存在的根本性架构缺陷。研究团队提出的DIJA攻击框架,无需训练或改写模型参数,即可诱导dLLMs生成有害、非法内容。这项研究挑战了现有dLLMs的安全对齐机制,开启了dLLMs安全研究的新篇章。文章深入分析了dLLMs双向建模和并行解码的特性如何使其容易被攻击,并提出了“掩码安全性”作为未来研究的核心方向,呼吁设计新的拒绝机制和对齐训练流程。

💡 dLLMs架构缺陷易受攻击:扩散语言模型(dLLMs)因其并行解码和双向上下文建模的特性,在文本生成上效率更高,但也存在根本性安全缺陷。与自回归模型不同,dLLMs无法逐token拒绝采样,且对掩码位置的插入容易被诱导生成有害内容,现有对齐机制对此束手无策。

🚀 DIJA攻击框架高效且隐蔽:DIJA攻击框架通过将原始的越狱提示转化为掩码文本交错的提示,能够大概率诱导dLLMs生成违规内容。该框架无需训练或改写模型参数,且通过多样化提示词生成、多粒度掩码策略和上下文对齐插入等技术,实现了自动、自然且具强攻击性的攻击提示生成,效率极高。

🛡️ 现有防御机制面临挑战:研究表明,DIJA攻击在多种dLLMs模型上表现出“全面溃败”,其攻击成功率远高于现有基线方法。即使是安全性较好的模型,在DIJA攻击下也难逃生成有害内容的命运。DIJA攻击的成功并非模型“没学好”,而是源于dLLM设计本身难以阻止此类局部诱导性填充。

🌐 未来研究方向:掩码安全性:此次研究开启了dLLMs安全研究的新时代,并提出了“掩码安全性”(Mask-Aware Safety)将成为未来dLLMs安全研究的核心。研究者呼吁设计基于掩码位置的拒绝机制,构建专为dLLMs架构设计的对齐训练流程,并重新审视“生成控制”的语义单元,从句子层面微调至token层面。

扩散语言模型(Diffusion-based LLMs,简称 dLLMs)以其并行解码、双向上下文建模、灵活插入masked token进行解码的特性,成为一个重要的发展方向。

相较传统的自回归语言模型,dLLMs 既可以一次性生成多个位置的词,也能更自然地完成文本插入、改写、补全等任务,被广泛应用于交互式问答、代码生成、甚至多模态场景。

但在这股看似技术跃迁的浪潮背后,一场潜藏的安全危机正在酝酿:能否继续沿用自回归模型的对齐与防护机制,保障dLLM的输出安全?

答案是:不能。

在最新研究《The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs》中,来自上海交通大学, 上海人工智能实验室和中山大学的研究团队指出:

当前扩散语言模型存在根本性架构安全缺陷,在某些攻击场景下,几乎毫无防御能力。

他们提出的DIJA攻击框架,不需要训练,也不需要改写模型参数,就能令多个dLLMs大概率生成有害、非法、违规内容。这项研究不仅击穿了扩散语言模型的“对齐护盾”,也正式拉开了dLLMs 安全研究时代的序幕。

为什么dLLMs更容易被攻破?

从自回归LLM到扩散LLM

    自回归LLM: 一次生成一个token,顺序解码,现有的对齐策略按照自回归LLM生成方式构建,实行安全对齐后自回归LLM能够对危险内容拒绝采样。
    扩散LLM: 同时生成多个掩码位置token,基于双向上下文建模,追求上下文逻辑一致性,并行速度快,可以在文本任意位置插入掩码进行生成。

扩散语言模型的”双刃剑”:双向建模和并行解码

    生成是并行进行的,没有上下文顺序性,无法逐token拒绝采样
    输入支持任意位置插入掩码,模型被设计为无条件预测上下文掩码
    现有的安全对齐训练目标大多针对”整体输入-整体输出”,面对局部掩码提示时束手无策

揭开 dLLMs 无感防线的“真空地带”

攻击理念:从生成机制出发,让模型“自己说出危险内容”

DIJA(Diffusion LLMs Jailbreak Attack)不会对越狱提示中的危险内容进行任何掩盖或者改写,完整的暴露给dLLMs,只需要将原始的越狱提示改造为掩码文本交错的越狱提示(如上文图一所示),dLLMs即使意识到这是危险的指示,依然”不由自主”的输出非法内容。

自动攻击构建:一句 prompt 都不用手写,攻击全自动生成

相比一些传统的越狱攻击需要精心设计提示词,团队提出了一套全自动的攻击构建管线,借助强大的语言模型(如Qwen2.5或GPT-4o)实现“只需示范几例、无需手动改写”的零人工攻击生成。

团队设计了三大关键策略,使得构造出的掩码文本交错的攻击提示既自然流畅,又具强攻击性:

    多样化提示词生成(Prompt Diversification):
    精心挑选多种类型的jailbreak示例(如对话、清单、Markdown 格式等),涵盖多个危险行为类别,并注入风格扰动(如语气、啰嗦程度等),以增强通用性与抗检测性。

    多粒度掩码策略(Masking Pattern Selection):
    不仅构造多样化的提示词内容,还在结构层面引入多粒度的掩码操作(例如整段掩码、关键动词掩码、逐步掩码等),诱导模型生成更具威胁性的补全,同时实现对攻击行为的精细控制。

    上下文对齐插入(Benign Separator Insertion):
    为了保持流畅性与隐蔽性,在掩码位置插入短小、无害的上下文句子(如说明性、叙述性短语),让攻击提示词在形式上看似正常,整体更加流畅,精准诱导模型生成高危内容。

通过上述设计,最终生成的攻击提示词具备以下三大优势:

    结构自然:读起来毫无违和感 - 上下文扎实:精心控制模型走向 - 攻击效果强:自动生成即能突破对齐防线!

DIJA无需任何人工重写,无需藏污纳垢式 prompt变形改写,真正实现了高效、稳健、可控的规模化攻击生成。

实验结果:多种dLLMs模型在DIJA攻击下“全面溃败”

研究团队在4款代表性dLLM上全面测试DIJA攻击效果,使用多种评估指标:

    ASR-k:基于关键词匹配的攻击成功率
    ASR-e &StrongREJECTscore:基于评估模型的攻击成功率或攻击成功分数
    Harmfulnessscore:GPT-4o对模型回答的危险性评分

扩散语言模型的对齐效果与内在防御力

研究团队首先探究了现有的扩散语言模型的安全对齐效果,如图3,利用两种越狱攻击方法在三个benchmark上对4种扩散LLMs和自回归LLMs的评估结果显示,扩散语言模型的防御力整体上与自回归语言模型相当甚至略微优于自回归语言模型,在dLLMs中Dream-Instruct的安全性最好, MMaDA-MixCoT的安全性最差。

关键结果亮点

如表1,表2,表3所示:

    DIJA在所有benchmarks上的ASR-k均取得了最高,这表明在DIJA攻击下dLLMs几乎不会拒绝回答任何危险性话题
    对于安全性最好的Dream-Instruct, DIJA 在 JailbreakBench的ASR-e上比最好的baseline ReNeLLM提升高达78.5%, 在StrongREJECT score上提升37.7

如图5所示,DIJA 在面对两种防御方法(Self-reminder 和 RPO)时依然保持攻击效果,展现出极强的鲁棒性。

dLLMs的安全短板不是bug,而是设计特性

DIJA攻击之所以成功,不是模型“没学好”,而是dLLM的基本设计可能本就无法阻止此类攻击

模型失效的根本原因:

上下文双向建模 → 掩码可被“诱导性填充”:模型会根据前后文自动完成掩码位,不区分是否含有危险语义。

并行解码机制 → 无法逐位审查或中止生成:一次性输出全部或者多个token,无中途拒绝机制。

当前缺乏局部安全对齐:当前alignment方法只在“完整任务”层面对模型进行调优,对单个token位置无感知。

结果就是,**攻击者“只需掩码,模型自动越界”。

dLLM安全时代刚刚开始,DIJA只是序章

这篇论文不仅提出了DIJA攻击框架,更代表着一个新的研究方向开启:“掩码安全性”(Mask-Aware Safety)将成为未来扩散语言模型安全的新核心。
研究者呼吁:

    设计基于掩码位置的拒绝机制,例如局部风险评分 + 掩码内容审查器;
    构建专为dLLM架构设计的对齐训练流程;
    重新审视“生成控制”的语义单元,从输出句子到token层面微调对抗。

作者简介

本文由上海交通大学,上海人工智能实验室和中山大学联合完成。 主要作者包括上海交通大学博士生温子辰,上海人工智能实验室实习生屈嘉树,青年研究员刘东瑞(Project lead)等。通讯作者为上海交通大学人工智能学院助理教授张林峰和上海人工智能实验室青年科学家何聪辉

论文地址: https://arxiv.org/abs/2507.11097
代码:https://github.com/ZichenWen1/DIJA

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

扩散语言模型 dLLMs DIJA攻击 AI安全 模型对齐
相关文章