IT之家 05月09日 14:15
Meta 开源 LlamaFirewall 防护工具,助力构建安全 AI 智能体
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta AI 推出的 LlamaFirewall 旨在保护生产环境中的 AI 智能体,应对日益增长的安全威胁。随着 AI 智能体在读取邮件、生成代码等高权限场景中的应用,潜在风险日益增加。LlamaFirewall 针对提示注入攻击、行为不一致和不安全代码生成等问题,开发了 PromptGuard 2、AlignmentCheck 和 CodeShield 三个核心防护模块。通过在 AgentDojo 基准测试中的出色表现,LlamaFirewall 显著降低了攻击成功率,并提高了代码安全性,为 AI 智能体的安全部署提供了有力保障。

🛡️ LlamaFirewall 采用分层框架,包含 PromptGuard 2、AlignmentCheck 和 CodeShield 三个防护模块,以应对 AI 智能体面临的安全挑战。

🗣️ PromptGuard 2 是一个基于 BERT 架构的分类器,能实时检测越狱行为和提示注入,支持多语言输入,拥有 86M 和 22M 两种参数模型,分别满足高性能和低延迟需求。

🧐 AlignmentCheck 是一种实验性审计工具,通过分析智能体内部推理轨迹,确保其行为与用户目标一致,尤其擅长检测间接提示注入。

💻 CodeShield 则是一个静态分析引擎,检查 LLM 生成代码中的不安全模式,支持多种编程语言,能够在代码提交或执行前捕获 SQL 注入等常见漏洞。

📊 在 AgentDojo 基准测试中,LlamaFirewall 显著降低了提示注入攻击的成功率,其中 PromptGuard 2(86M)将攻击成功率从 17.6% 降至 7.5%,整体系统将 ASR 降低 90% 至 1.75%。CodeShield 在不安全代码数据集上表现出色,精准度达 96%,召回率 79%。

IT之家 5 月 9 日消息,Meta AI 公司最新推出 LlamaFirewall,应对 AI 智能体不断演变的威胁格局,为生产环境中的 AI 智能体提供系统级安全保护。

随着大型语言模型(LLMs)嵌入 AI 智能体并被广泛应用于高权限场景,安全隐患随之增加。这些智能体可以读取邮件、生成代码、调用 API,一旦被恶意利用,后果不堪设想。

传统的安全机制,如聊天机器人内容审核或硬编码模型限制,已无法满足具备广泛能力的 AI 智能体需求。Meta AI 针对提示注入攻击、智能体行为与用户目标不一致、以及不安全的代码生成三大核心挑战,开发了 LlamaFirewall。

IT之家援引博文介绍,LlamaFirewall 采用分层框架,包含三个专门的防护模块:

Meta 在 AgentDojo 基准测试中评估了 LlamaFirewall,模拟了 97 个任务领域的提示注入攻击。

结果显示,PromptGuard 2(86M)将攻击成功率(ASR)从 17.6% 降至 7.5%,任务实用性损失极小;AlignmentCheck 进一步将 ASR 降至 2.9%;整体系统将 ASR 降低 90% 至 1.75%,实用性略降至 42.7%。CodeShield 在不安全代码数据集上也表现出色,精准度达 96%,召回率(recall) 79%,响应时间适合生产环境实时使用。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LlamaFirewall AI安全 Meta AI 提示注入 代码安全
相关文章