Anthropic 推“宪法分类器”，可大幅降低 Claude 越狱率

IT之家 02月05日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Anthropic推出了一种名为“宪法分类器”的新概念，旨在解决人工智能工具中滥用自然语言提示的问题。该方法通过将一套类似人类价值观的“宪法”植入大型语言模型，以遏制Claude 3.5 Sonnet的越狱行为。实验结果显示，宪法分类器能有效减少81.6%的越狱情况，同时对模型性能的影响极小。Anthropic特别关注与化学、生物、放射和核（CBRN）相关内容的风险，并通过演示项目邀请用户挑战突破CBRN内容相关的越狱关卡。然而，此举也引发了一些关于众包安全志愿者的争议。尽管宪法分类器有效，但仍存在良性释义和长度利用等绕过方法，且测试期间存在较高的拒绝率。

🛡️ Anthropic推出“宪法分类器”，通过植入类似人类价值观的“宪法”来约束大型语言模型，旨在减少模型生成超出安全范围内容的“越狱”行为。

🧪 该安全措施特别关注化学、生物、放射和核（CBRN）相关内容的风险，防止大型语言模型提供制造化学制剂等有害信息。

🧑‍💻 尽管宪法分类器在减少越狱方面表现出色，但仍存在绕过方法，例如通过良性释义（改变关键词表述）或长度利用（用无关细节迷惑模型）来突破防御。

📊 实验数据表明，实施宪法分类器后，针对Claude模型的成功越狱情况减少了81.6%，但生产流量拒绝率绝对增加0.38%，推理开销增加23.7%。

IT之家 2 月 5 日消息，为解决人工智能工具中存在的滥用自然语言提示问题，OpenAI 的竞争对手 Anthropic 推出了一个名为“宪法分类器（constitutional classifiers）”的新概念，这是一种将一套类似人类价值观（实际上就是一部“宪法”）植入大型语言模型的方法。

IT之家注意到，Anthropic 的安全保障研究团队在一篇新学术论文中公布了这一新的安全措施，旨在遏制 Claude 3.5 Sonnet（其最新、最先进的大型语言模型）的越狱（即生成超出大型语言模型既定安全防护范围的输出内容）。

作者们发现，在实施宪法分类器后，针对 Claude 模型的成功越狱情况减少了 81.6%，同时该系统对性能的影响极小，“生产流量拒绝率仅绝对增加 0.38%，推理开销增加 23.7%”。

虽然大型语言模型能生成大量各种各样的有害内容，但 Anthropic（以及 OpenAI 等同行）越来越关注与化学、生物、放射和核（CBRN）相关内容的风险。例如，大型语言模型可能会告诉用户如何制造化学制剂。

因此，为了证明宪法分类器的价值，Anthropic 发布了一个演示项目，向用户发起挑战，让他们尝试突破 8 个与 CBRN 内容相关的越狱关卡。但这一举措招致了一些批评，有人认为这是在众包安全志愿者或“红队队员”。一位推特用户写道：“所以你是让社区无偿为你工作，好让你在闭源模型上赚取更多利润？”

Anthropic 指出，针对其宪法分类器防御措施的成功越狱是绕过了这些分类器，而非直接规避它们，特别列举了两种越狱方法。一种是良性释义（作者举例说，将从蓖麻豆糊中提取毒素蓖麻蛋白的表述改为提取蛋白质），另一种是长度利用，即通过无关细节迷惑大型语言模型。Anthropic 补充说，已知对没有宪法分类器的模型有效的越狱方法在这一防御措施下并未成功。

然而，Anthropic 也承认，在宪法分类器测试期间提交的提示“拒绝率高得离谱”，并认识到其基于规则的测试系统存在误报和漏报的可能性。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签