AgentAuditor: 让智能体安全评估器的精确度达到人类水平

LLM 智能体（LLM Agent）正从 “纸上谈兵” 的文本生成器，进化为能自主决策、执行复杂任务的 “行动派”。它们可以使用工具、实时与环境互动，向着通用人工智能（AGI）大步迈进。然而，这份 “自主权” 也带来了新的问题：智能体在自主交互中，是否安全？

研究者们为这一问题提出了许多基准（benchmark），尝试评估现有智能体的安全性。然而，这些基准却面临着一个共同的问题：没有足够有效、精准的评估器（evaluator）。传统的 LLM 安全评估在单纯的评估生成内容上表现优异，但对智能体的复杂的环境交互和决策过程却 “鞭长莫及”。现有的智能体评估方法，无论是基于规则还是依赖大模型，都面临着 “看不懂”、“看不全”、“看不准” 的困境：难以捕捉微妙风险、忽略小问题累积、对模糊规则感到困惑。基于规则的评估方法往往仅依靠环境中某个变量的变化来判断是否安全，难以正确识别智能体在交互过程中引入的微妙风险；而基于大模型的评估方法，无论使用最为强大的通用大模型还是专门为安全判断任务微调的专用模型，在精确度上均不如人意。

为了解决这一难题，来自纽约大学、南洋理工大学、伊利诺伊大学香槟分校、KTH 皇家理工学院、悉尼大学、新加坡国立大学的研究者们，推出 AgentAuditor—— 一个通用、免训练、具备记忆增强推理能力的框架，让 LLM 评估器达到了人类专家的评估水平，精准识别智能体的安全风险。

论文题目：

AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents

论文链接：

https://arxiv.org/abs/2506.00641

代码 / 项目主页：

https://github.com/Astarojth/AgentAuditor-ASSEBench

方法概览：AgentAuditor 如何解决精确度难题

AgentAuditor 将结构化记忆和 RAG（检索强化推理）结合在一起，赋予了 LLM 评估器类似人类的学习和理解复杂的交互记录的能力，最终极大地增强了 LLM 评估器的性能。它通过三个关键阶段实现：

1. 特征记忆构建 (Feature Memory Construction)：将原始、杂乱的智能体交互记录，转化为结构化、向量化的 “经验数据库”。这里不仅有交互内容，更有场景、风险类型、智能体行为模式等深度语义信息。

2. 推理记忆构建 (Reasoning Memory Construction)：从特征记忆中筛选出最具代表性的 “案例”，并由 LLM（AgentAuditor 内部使用的同一个 LLM，确保自洽性）生成高质量的思维链（CoT）推理过程。这些 CoT 就像人类专家的 “判案经验”，为后续评估提供指导。

3. 记忆增强推理 (Memory-Augmented Reasoning)：面对新的智能体交互案例，AgentAuditor 通过多阶段、上下文感知的检索机制，从推理记忆中动态调取最相关的 “判案经验”（CoT），辅助 LLM 评估器做出更精准、更鲁棒的判断。

数据集：ASSEBench 的构建

为了全面验证 AgentAuditor 的实力，并填补智能体安全（Safety）与安全（Security）评估基准的空白，研究团队还精心打造了 ASSEBench (Agent Safety & Security Evaluator Benchmark)。这一基准：

规模宏大：包含 4 个子集，共 2293 条精心标注的真实智能体交互记录。

覆盖广泛：涵盖 15 种风险类型、528 个交互环境、横跨 29 个应用场景以及 26 种智能体行为模式。

标注精细：采用创新的人机协同标注流程，并对模糊风险情况引入 “严格” 和 “宽松” 两种判断标准，评估更细致。

双管齐下：同时关注智能体的 “Safety”（避免无意犯错）和 “Security”（抵御恶意攻击）两大方面。

实验效果：AgentAuditor 让 LLM 评估器的精确度达到人类水平

在 ASSEBench 及 R-Judge 等多个基准上的广泛实验表明：

普遍提升显著： AgentAuditor 能显著提升各种 LLM 评估器在所有数据集上的表现。例如，Gemini-2-Flash-Thinking 在 ASSEBench-Safety 上的 F1 分数提升了高达 48.2%！

直逼人类水平：搭载 AgentAuditor 的 Gemini-2-Flash-Thinking 在多个数据集上取得了 SOTA 成绩，其评估准确率（如在 R-Judge 上达到 96.1% Acc）已接近甚至超越单个人类标注员的平均水平。

强大的自适应能力：面对 ASSEBench-Strict 和 ASSEBench-Lenient 这两个针对模糊场景设计的不同标准子集，AgentAuditor 能自适应调整其推理策略，显著缩小不同模型在不同标准下的性能差距。

上图分别展示了 AgentAuditor 与现有方法及人类评估水平的对比。左图比较了 AgentAuditor 与直接使用 LLM 的评估方法在 R-Judge 基准上的准确率（Acc）和 F1 分数；右图则比较了 AgentAuditor 的准确率与在无讨论情况下单个人类评估者在多个benchmark中的的平均准确率。

AgentAuditor 的核心贡献

系统性分析挑战：深入剖析了当前自动化评估 Agent 安全面临的核心难题。

创新框架：通过自适应代表性样本选择、结构化记忆、RAG 和自动生成 CoT，显著增强 LLM 评估能力。

首个专用基准： ASSEBench 填补了领域空白，为人机协同标注提供了新范式。

人类级表现：实验证明其评估准确性和可靠性已达到专业人类水准。

结语

AgentAuditor 和 ASSEBench 的提出，为构建更值得信赖的 LLM 智能体提供了强有力的评估工具和研究基础。这项工作不仅推动了 LLM 评估器的发展，也为未来构建更安全、更可靠的智能体防御系统指明了方向。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

文章原文

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签