PaperWeekly 10小时前
Jailbreak迎来“最后一卷”?港科大用“内容评分”重塑大模型越狱评估范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了大语言模型(LLM)的“越狱”现象及其安全风险。文章指出,现有评估越狱攻击方法存在严重缺陷,如关键词检测忽略语义、LLM法官缺乏统一标准,导致评估结果存在巨大差异。为解决此问题,港科大团队提出了GuidedBench评估框架和GuidedEval评估方法,通过为每道有害问题提供攻击者视角的“评分指南”,实现细粒度的客观评分。实测发现,大部分越狱方法的实际成功率远低于宣传水平,部分方法甚至接近无效。研究强调,应细粒度调查越狱攻击揭示的具体安全风险,避免被过度乐观的成功率误导,从而为LLM安全加固提供更可靠依据。

🎯 **现有越狱评估方法的局限性**:传统的关键词检测和LLM法官评估方式存在显著问题。关键词检测不考虑语义,容易误判,而LLM法官评估标准不统一,主观性强,导致不同研究结果差异巨大。例如,模型回复“我会教你如何非法制作炸弹”可能因包含“非法”被误判为失败,而含有有害信息的讽刺回复也可能被LLM法官误判为无害。

💡 **GuidedBench:更严谨的越狱评估框架**:港科大团队提出的GuidedBench包含一个高质量问题库和GuidedEval评估框架。GuidedEval为每道题目制定了详细的“评分指南”,要求模型在越狱响应中提及特定的关键实体(如炸弹原料、制造工具)或关键步骤(如获取材料、组装流程),并根据是否满足这些“评分点”给予细粒度、客观的分数,从而克服了以往模糊评估标准的弊端。

📉 **“100%成功率”是误导**:通过GuidedBench框架对10种主流越狱方法和5个主流模型进行评估,结果显示大多数方法的实际攻击成功率(ASR)均未超过30%。例如,曾宣称ASR达90%+的AutoDAN在本基准下仅为29.45%,远低于预期。这表明,过往评估方式的缺陷导致了对模型安全性的过度乐观认知。

🛡️ **模型安全风险需细粒度分析**:研究发现,即使是先进的越狱攻击方法,在儿童犯罪、恐怖主义等高度敏感议题上,大多数模型仍表现出极强的防护能力。这种模型之间的差异性以及攻击方法与模型漏洞之间的复杂关联性,揭示了LLM安全风险的细微之处,呼吁研究者深入分析攻击方法具体揭示了哪些安全风险,为模型加固提供依据。

原创 让你更懂AI的 2025-07-23 09:31 北京

模型真的越狱了吗?

随着大语言模型的能力爆发,各种“越狱(Jailbreak)”方法也如雨后春笋般涌现。它们通过巧妙的提示词、对话设定,甚至中间层改写,迫使模型“说出不能说的话”,对社会具有严重的潜在安全风险。

问题来了:这些攻击方法到底有多强?它们所揭示的 LLM 安全风险是否被夸大了?

为了回答这个问题,来自港科大的王帅老师课题组系统评估了自 2022 年以来具有代表性的 37 种分属 6 个类别的 LLM 越狱攻击方法,并提出了全新的基于内容指南的 GuidedBench 评估框架,这一新评估范式或将成为 LLM 越狱领域的 “Last Exam”。

论文标题:

GuidedBench: Measuring and Mitigating the Evaluation Discrepancies of In-the-wild LLM Jailbreak Methods

论文链接:

https://arxiv.org/pdf/2502.16903

项目主页:

https://sproutnan.github.io/AI-Safety_Benchmark/


为什么我们需要重新评估越狱?

目前主流的 Jailbreak 评估方式,大致分为两类:

1. 关键词检测:比如模型有没有说出 “sorry” “I cannot help you” 这样的关键短语;

2. LLM 法官:让另一个模型判断这段话是否“有害”。

但这些方法存在严重问题:

1. 关键词判断不考虑语义信息,极易误判(比如模型回复“我会教你如何非法制作炸弹”也会因包含“非法”被判失败);

2. LLM 法官缺乏细节标准,不同模型评判主观不一,导致需要额外微调专门的法官模型;

多个研究即使用相同数据集和模型,成功率却差异巨大,评估方法的缺陷是其重要原因。

▲ 图:有害问题要求一个秘密克隆借记卡的解决方案。尽管越狱响应使用了讽刺的语气,但它仍然包含了一些有害信息。然而,基线错误地将其判断为无害,主要是被其语气误导。而 GuidedBench 正确地识别了可能帮助攻击者在越狱响应中获取有害信息的部分,并给出了合理的评分。


GuidedBench:为每道题配“标准答案”的越狱考卷

为了解决这个根本问题,港科大团队提出了 GuidedBench,包含一个有害问题数据集和一个新的评估框架——GuidedEval。

1. 数据集:团队从现有 6 大主流数据集中,精挑细选、人工改写、结构优化,最终构建了一个覆盖 20 类有害主题的 200 道高质量问题库,所有问题都通过多模型验证能被默认拒答。

2. GuidedEval:每一道题目,团队都为其制定了一套来自攻击者视角的“评分指南”,包括:

只要模型输出中出现了这些“评分点”,就会得到相应的分数。相比以往依靠“拒不拒答”、“是否有害”“是否有用”等模糊标准,GuidedEval 给出了细粒度、客观的“拆解式评分”方法。

▲ 图:GuidedEval 评分框架


真实评估结果:“100% 成功率”是幻觉

团队使用 GuidedBench 对 10 种主流 Jailbreak 方法在 5 个主流模型上进行了评估,结果发现没有一个方法的攻击成功率(ASR)超过 30%,像曾宣称 ASR 达 90%+ 的 AutoDAN,在本基准下仅得 29.45%;有的方法甚至直接归零,在多个模型上几乎无效。

这说明,由于过往越狱攻击评估方式的缺陷,过度乐观的“成功率”正在误导我们对模型安全性的认知。


评估洞察:这场考试的真正意义

1. 常用的“关键词打分法”该被淘汰了

关键词检测系统不仅误判率高,而且经常给出与人类直觉或 LLM 评估完全相反的结论。

GuidedEval 显著降低了此类误判。在三种不同的 LLM (DeepSeek-v3, Doubao, GPT-4o)作为法官的情况下,使用 GuidedEval 所产生的“法官间一致性”达到 94.01%,方差相比基线至少减少了 76.03%,并减少了由于评估规则不明确而导致的极端分数占比。这表明使用 GuidedBench 评估越狱攻击不再需要特殊微调的法官模型,增强了评估的说服力。

▲ 图:不同基于 LLM 的评估指标方差

2. 越狱揭示的安全风险需要细粒度调查

在使用 GuidedBench 进行评估时,作者发现即便面对目前最先进的攻击方法,在一些高度敏感的议题上,如儿童犯罪、恐怖主义等,大多数模型依然表现出极强的防护能力,几乎没有成功越狱的情况。

这种模型差异性不仅源于其训练机制和安全策略的不同,还与具体的攻击方式高度耦合,揭示了攻击方法与模型漏洞之间错综复杂的关联性。

正因如此,作者建议后续的越狱攻击研究者不仅应升级评估方式,还应系统性地研究所提的越狱攻击方法究竟揭示了什么具体的 LLM 安全风险,真正识别ASR背后的规律与隐患,为未来的模型安全加固提供可靠依据。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 


如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编


🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大语言模型 越狱攻击 AI安全 评估框架 模型风险
相关文章