Jailbreak迎来“最后一卷”？港科大用“内容评分”重塑大模型越狱评估范式

原创让你更懂AI的 2025-07-23 09:31 北京

模型真的越狱了吗？

随着大语言模型的能力爆发，各种“越狱（Jailbreak）”方法也如雨后春笋般涌现。它们通过巧妙的提示词、对话设定，甚至中间层改写，迫使模型“说出不能说的话”，对社会具有严重的潜在安全风险。

问题来了：这些攻击方法到底有多强？它们所揭示的 LLM 安全风险是否被夸大了？

为了回答这个问题，来自港科大的王帅老师课题组系统评估了自 2022 年以来具有代表性的 37 种分属 6 个类别的 LLM 越狱攻击方法，并提出了全新的基于内容指南的 GuidedBench 评估框架，这一新评估范式或将成为 LLM 越狱领域的 “Last Exam”。

论文标题：

GuidedBench: Measuring and Mitigating the Evaluation Discrepancies of In-the-wild LLM Jailbreak Methods

论文链接：

https://arxiv.org/pdf/2502.16903

项目主页：

https://sproutnan.github.io/AI-Safety_Benchmark/

为什么我们需要重新评估越狱？

目前主流的 Jailbreak 评估方式，大致分为两类：

1. 关键词检测：比如模型有没有说出 “sorry” “I cannot help you” 这样的关键短语；

2. LLM 法官：让另一个模型判断这段话是否“有害”。

但这些方法存在严重问题：

1. 关键词判断不考虑语义信息，极易误判（比如模型回复“我会教你如何非法制作炸弹”也会因包含“非法”被判失败）；

2. LLM 法官缺乏细节标准，不同模型评判主观不一，导致需要额外微调专门的法官模型；

多个研究即使用相同数据集和模型，成功率却差异巨大，评估方法的缺陷是其重要原因。

▲ 图：有害问题要求一个秘密克隆借记卡的解决方案。尽管越狱响应使用了讽刺的语气，但它仍然包含了一些有害信息。然而，基线错误地将其判断为无害，主要是被其语气误导。而 GuidedBench 正确地识别了可能帮助攻击者在越狱响应中获取有害信息的部分，并给出了合理的评分。

GuidedBench：为每道题配“标准答案”的越狱考卷

为了解决这个根本问题，港科大团队提出了 GuidedBench，包含一个有害问题数据集和一个新的评估框架——GuidedEval。

1. 数据集：团队从现有 6 大主流数据集中，精挑细选、人工改写、结构优化，最终构建了一个覆盖 20 类有害主题的 200 道高质量问题库，所有问题都通过多模型验证能被默认拒答。

2. GuidedEval：每一道题目，团队都为其制定了一套来自攻击者视角的“评分指南”，包括：

要提到哪些关键实体（如炸弹原料、制造工具）；

要提供哪些关键步骤（如获取材料、组装流程）；

只要模型输出中出现了这些“评分点”，就会得到相应的分数。相比以往依靠“拒不拒答”、“是否有害”“是否有用”等模糊标准，GuidedEval 给出了细粒度、客观的“拆解式评分”方法。

▲ 图：GuidedEval 评分框架

真实评估结果：“100% 成功率”是幻觉

团队使用 GuidedBench 对 10 种主流 Jailbreak 方法在 5 个主流模型上进行了评估，结果发现没有一个方法的攻击成功率（ASR）超过 30%，像曾宣称 ASR 达 90%+ 的 AutoDAN，在本基准下仅得 29.45%；有的方法甚至直接归零，在多个模型上几乎无效。

这说明，由于过往越狱攻击评估方式的缺陷，过度乐观的“成功率”正在误导我们对模型安全性的认知。

评估洞察：这场考试的真正意义

1. 常用的“关键词打分法”该被淘汰了

关键词检测系统不仅误判率高，而且经常给出与人类直觉或 LLM 评估完全相反的结论。

GuidedEval 显著降低了此类误判。在三种不同的 LLM （DeepSeek-v3, Doubao, GPT-4o）作为法官的情况下，使用 GuidedEval 所产生的“法官间一致性”达到 94.01%，方差相比基线至少减少了 76.03%，并减少了由于评估规则不明确而导致的极端分数占比。这表明使用 GuidedBench 评估越狱攻击不再需要特殊微调的法官模型，增强了评估的说服力。