IT之家 2024年07月31日
攻击成功率从 3% 到接近 100%,利用空格键可绕过 Meta AI 模型安全系统
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta 公司发布的 Prompt-Guard-86M 模型旨在防止 AI 提示词注入和越狱输入,但安全研究人员发现该模型存在漏洞,用户只需在字母之间添加空格即可绕过其安全机制。研究人员发现,这种简单的转换会使分类器无法识别潜在的有害内容,攻击成功率高达 100%。

👨‍💻 Meta 公司发布的 Prompt-Guard-86M 模型旨在防止 AI 提示词注入和越狱输入,但安全研究人员发现该模型存在漏洞,用户只需在字母之间添加空格即可绕过其安全机制。

🔍 安全研究人员通过分析 Prompt-Guard-86M 模型与微软的基础模型 microsoft / mdeberta-v3-base 之间的嵌入权重差异,发现了这种安全绕过机制。

⚠️ 研究人员发现,这种简单的转换会使分类器无法识别潜在的有害内容,攻击成功率高达 100%。用户可以通过在字母之间添加空格,并省略标点符号,来要求 Prompt-Guard-86M 分类器模型“忽略之前的指令”。

IT之家 7 月 31 日消息,Meta 公司上周在发布 Llama 3.1 AI 模型的同时,还发布了 Prompt-Guard-86M 模型,主要帮助开发人员检测并响应提示词注入和越狱输入。

IT之家在这里简要补充下背景知识:

不过根据科技媒体 theregister 报道,这个防止 AI 提示词注入和越狱的模型,本身也存在漏洞,用户只需要通过空格键就能绕过 Meta 的 AI 安全系统。

企业人工智能应用安全商店 Robust Intelligence 的漏洞猎人阿曼・普里扬舒(Aman Priyanshu)分析 Meta 的 Prompt-Guard-86M 模型与微软的基础模型 microsoft / mdeberta-v3-base 之间的嵌入权重差异时,发现了这种安全绕过机制。

用户只需要在字母之间添加空格并省略标点符号,就可以要求 Meta 的 Prompt-Guard-86M 分类器模型“忽略之前的指令”。

Priyanshu 在周四提交给 Prompt-Guard repo 的 GitHub Issues 帖子中解释说:

绕过方法是在给定提示符中的所有英文字母字符之间插入按字符顺序排列的空格。这种简单的转换有效地使分类器无法检测到潜在的有害内容。

Robust Intelligence 首席技术官海勒姆・安德森(Hyrum Anderson)表示

无论你想问什么令人讨厌的问题,你所要做的就是去掉标点符号,在每个字母之间加上空格。

它的攻击成功率从不到 3% 到接近 100%。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 安全 提示词注入 Prompt-Guard-86M 漏洞 Meta
相关文章