安全客 02月05日
研究人员发现抵御人工智能模型通用越狱攻击的新方法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Anthropic安全团队研发的“宪法分类器”是一种创新方法,旨在保护AI模型免受通用越狱攻击。该方法基于原则清单(“宪法”),通过合成数据生成和分类器训练,有效检测并阻止有害内容。经过数千小时的人工红队测试和综合评估,宪法分类器展现出卓越的抗性,能显著降低越狱成功率,同时保持较低的误拒率和适中的计算开销。尽管并非完美,但它为未来安全部署更强大的人工智能模型,降低相关风险,提供了一条有希望的路径。

🛡️ 宪法分类器基于明确无害和有害类别原则清单(“宪法”)运行,通过界定允许和禁止的内容,为AI模型的安全防护提供了明确的准则。

🧪 该方法利用合成数据生成技术,依据宪法,针对所有内容类别生成大量的合成提示和模型完成内容,并通过翻译成不同语言和模仿已知越狱攻击风格,对数据进行扩充,从而提升分类器的鲁棒性。

📈 实验结果表明,使用10000条合成越狱提示对Claude 3.5 Sonnet进行测试,越狱成功率从86%显著降至4.4%,拒答率仅略有上升(0.38%),计算成本适度增加(23.7%),在安全性和效率之间取得了较好的平衡。

🤝 Anthropic团队于2025年2月提供在线演示,邀请红队进行测试,并聚焦于与化学武器相关的查询,鼓励用户尝试越狱攻击,为系统改进收集有价值的反馈。

来自 Anthropic 安全保障研究团队的研究人员开发出一种新方法,用于保护人工智能模型免受通用越狱攻击。 这种创新方法被称为 “宪法分类器”,在经过数千小时的人工红队测试和综合评估后,展现出卓越的抗性。 通用越狱攻击是指专门设计的输入内容,旨在绕过人工智能模型的安全防护机制,迫使模型生成有害回应。 Anthropic 安全保障研究团队指出,所有这些攻击方式可能包括用冗长的提示信息对模型进行轰炸,或者修改输入风格,比如使用不常见的大写形式。 尽管经过了大量的安全训练,大语言模型依然容易受到此类攻击。 宪法分类器是基于合成生成的数据进行训练的输入和输出分类器。它们能够以极低的误拒率和适中的计算开销,过滤掉大多数越狱攻击尝试。 该系统基于一部 “宪法” 运行,这是一份定义了允许和禁止内容类别的原则清单。例如,芥末的食谱是被允许的,而芥子气的配方则不被允许。 其工作原理如下: 制定宪法:制定一部明确无害和有害类别的宪法。合成数据生成:依据宪法,针对所有内容类别生成大量的合成提示和模型完成内容。通过将这些数据翻译成不同语言,并转化为模仿已知越狱攻击风格的形式,对数据进行扩充。分类器训练:利用合成数据训练输入和输出分类器,以检测并阻止有害内容。部署:将这些分类器作为防护措施,用以保护人工智能模型。 在一次漏洞赏金计划中,183 名活跃参与者花费了 3000 多个小时,试图对保护 Claude 3.5 Sonnet 的原型系统进行越狱攻击。 尽管设置了高额奖金,但并未发现通用越狱攻击方法。然而,该原型系统存在较高的误拒率和计算成本。 使用 10000 条合成越狱提示,对 Claude 3.5 Sonnet 上的宪法分类器更新版本进行了测试。 越狱成功率从 86% 降至 4.4%,拒答率仅略有上升(0.38%),计算成本适度增加(23.7%)。 2025 年 2 月 3 日至 2 月 10 日,提供宪法分类器系统的在线演示,供红队进行测试。 此次演示聚焦于与化学武器相关的查询,并邀请用户尝试越狱攻击,为系统改进提供有价值的反馈。 虽然宪法分类器能提供强有力的保护,但并非万无一失。研究人员建议采用补充防御措施,并根据新出现的越狱技术对 “宪法” 进行调整。 这一突破有望在未来安全部署更强大的人工智能模型,降低与越狱攻击相关的风险,确保人工智能系统符合安全原则。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

宪法分类器 AI安全 越狱攻击 Anthropic
相关文章