量子位 前天 17:07
AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

SafeKey框架是一项旨在增强大型推理模型(LRMs)安全性和稳健性的创新研究。该框架在不损害模型核心能力的前提下,通过双管齐下的方法,显著提升了模型在面对“越狱”攻击时的防御能力。研究团队通过深入分析模型“越狱”原因,发现了“关键句”现象和“沉睡的安全信号”,并据此设计了“双通路安全头”和“查询遮蔽建模”两个关键模块。实验结果表明,SafeKey框架有效降低了模型危险率,同时保持了模型原有的核心能力,为大模型安全研究提供了新的思路。

🔑 研究发现大模型“越狱”的两个关键因素:一是“关键句”现象,即模型回答的第一个句子决定了安全调性;二是“沉睡的安全信号”,模型在生成“关键句”前已暴露恶意,但安全信号未被利用。

💡 SafeKey框架采用“双通路安全头”,在训练阶段并行监督“关键句”前内容和模型对查询的理解与复述,以放大模型内部的安全信号,为后续安全决策做好准备。

🛡️ SafeKey框架引入“查询遮蔽建模”,遮蔽原始用户输入,促使模型依赖自身理解续写安全“关键句”,增强安全决策的自主性和稳健性。

✅ 实验结果表明,SafeKey框架显著提升了模型的安全性,降低了9.6%的危险率,同时在数学推理、代码和通用语言理解等基准测试中,模型准确率平均高出0.8%。

🔬 SafeKey框架的模块有效性通过消融实验验证,证明“双通路安全头”和“查询遮蔽建模”均可独立提升模型安全性,并且SafeKey能够提升模型在生成关键句的时候对自己的复述与理解的注意力。

关注前沿科技 2025-06-13 13:07 北京

SafeKey在不影响核心能力的前提下,显著增强了模型的安全稳健性

SafeKey团队 投稿量子位 | 公众号 QbitAI

大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。

尽管学术界已尝试通过监督微调(SFT)有效地提升模型安全,但下图的测试结果所示,监督微调在面对训练数据领域外的层出不穷的“越狱”攻击时,往往显得捉襟见肘,泛化能力有限。

同时,之前的工作没有对大型推理模型的安全思考做深入的分析,以进行针对性的提升。

来自加州大学圣克鲁兹分校,加州大学伯克利分校,思科研究和耶鲁大学的的研究团队提出了创新的SafeKey框架,成功在不影响模型核心能力的前提下,显著增强了其安全稳健性。

发现:大模型信息“越狱”的两大核心

SafeKey团队在探究模型为何会“越狱”成功时,获得了两大核心发现:

1.“关键句”现象(The “Key Sentence”)

如下图所示,推理模型在回答问题时,普遍会先进行一段对用户查询的理解与重述。

而紧随其后的第一个句子,往往直接决定了整个回答的“安全调性”。

研究团队将其命名为“关键句”(Key Sentence):一个安全的“顿悟时刻”(Aha-moment)能否在此时被触发,是模型走向安全回答还是危险回答的分水岭。

2.“沉睡的安全信号”(The Dormant Safety Signal)

另外,对于大量“越狱”成功的案例,模型在生成“关键句”之前,其对查询的理解和复述已经明确暴露了查询的恶意

这意味着,模型内部的隐藏状态在早期阶段就已携带了强烈的安全特征信号。

但是在回答查询的过程中,这个宝贵的安全信号却陷入了“沉睡”,未能在后续生成“关键句”的过程中被充分利用,导致了最终的安全防线崩溃。

SafeKey:双管齐下,唤醒模型的内在安全顿悟

基于上述发现,SafeKey框架应运而生——

它不再满足于简单的“对错”教导,而是通过两大创新优化目标,精准地强化模型在“关键句”生成时的“安全顿悟时刻”。

双通路安全头(Dual-Path Safety Head):提前放大安全信号

如下图所示,为了强化模型内部的安全信号,研究团队设计了“双通路安全头”。在训练阶段,它会并行地监督两段关键内容的隐藏状态:

这种设计通过监督预测头对这两个关键阶段的隐藏状态进行安全判别,迫使模型在生成“关键句”前放大隐藏状态内的安全信号,为后续成功触发“安全顿悟”做好了充分铺垫。

查询遮蔽建模(Query-Mask Modeling):强迫模型“听自己的”

如下图所示,为了促使模型在决策时更加依赖自己内在的安全判断,而非被“越狱”指令牵着鼻子走,SafeKey团队提出了“查询遮蔽建模”。

该任务会完全遮蔽掉原始的用户输入,要求模型仅凭自己刚刚生成的“理解与复述”内容,来续写出安全的“关键句”

这种设计强迫模型必须“相信”并“利用”自己刚刚形成的、已经携带了安全信号的内部理解,从而极大地增强了安全决策的自主性和稳健性。

测试:安全与能力的“双赢”

SafeKey的有效性在实验中得到了充分验证:

安全性能显著提升:实验结果表明,SafeKey框架能够显著地提升模型的安全性,尤其是在面对训练领域外的危险输入和越狱提示的时候,能够在三个不同大小的模型上降低9.6%的危险率

有效维持核心能力:SafeKey完美地保持了模型原有的各项核心能力。在数学推理、代码和通用语言理解等基准测试上,搭载SafeKey的模型甚至取得了比原始基线平均高0.8%的准确率

模块有效性验证:消融实验证明,“双通路安全头”和“查询遮蔽建模”两个模块均可独立提升模型安全性。进一步实验分析发现,SafeKey能够提升模型在生成关键句的时候对自己的复述与理解的注意力。同时,双通路安全头的损失函数能让模型学到更好的安全表征,从而使安全头更容易学会正确的安全分类。

总的来说,SafeKey框架能够应用在各种不同的大型推理模型上,在几乎不影响模型能力的同时提升模型的安全性,并且需要较少的计算资源。

论文地址:https://arxiv.org/pdf/2505.16186项目主页:https://safekeylrm.github.io/复现代码:https://github.com/eric-ai-lab/SafeKey/模型:https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SafeKey 大模型安全 模型稳健性 越狱攻击 双通路安全头
相关文章