AI & Big Data 02月06日
Anthropic公開憲法式分類器,大幅降低AI越獄攻擊成功率
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Anthropic公开了一种名为宪法式分类器的新防御机制,旨在抵御通用型越狱攻击。该技术通过预定义的宪法式原则和分类器训练,能够有效检测并拦截常见的越狱攻击手法,同时尽量减少对合法查询的误判。Anthropic已开放临时测试平台,邀请攻击测试人员进行实测,以验证系统的防御能力。实验表明,宪法式分类器在合成测试中能显著降低越狱成功率,且运算成本增加有限。该机制类似于Constitutional AI,通过预设原则来决定模型的回应内容,并利用大规模合成对话范例进行训练,最终实现对潜在违规内容的自动检测和拦截。

🛡️宪法式分类器是一种新型防御机制,旨在抵御通用型越狱攻击,通过宪法式原则的定义与分类器训练,可侦测并拦截多数常见越狱手法。

🧪该分类器在合成测试中表现出色,能将越狱成功率从未使用分类器的86%降至4.4%,拒絕率仅略增0.38%,运數成本也仅比基准模型多约23.7%。

📜宪法式分类器的概念与Anthropic先前提出的Constitutional AI相似,皆是透过一套预先定义的宪法式原则,来决定模型需回应或拒绝的内容。

🧑‍💻研究人员利用大型语言模型如Claude,依照预先订定的原则,合成大规模合法与不合法对话范例,并做多语言转换及各种文字风格变型,以形成多元化的训练集,最终训练完成的输入与输出分类器能自动侦测潜在的违规或危险内容。

Anthropic公開名為憲法式分類器(Constitutional Classifiers)的新防護機制,專門用來抵禦通用型越獄攻擊(Universal Jailbreaks)。根據最新研究報告,這項技術透過憲法式原則的定義與分類器訓練,可偵測並攔截多數常見越獄手法,同時盡量降低拒絕合法查詢的比例。Anthropic現已開放臨時測試平臺,邀請攻擊測試人員進行實測,以進一步驗證系統的防護能力。大型語言模型經過嚴格的安全訓練,理論上應該能夠阻擋危險內容的生成,例如拒絕回答涉及化學或生物武器製作的方法。不過,越獄攻擊利用不同的技術手法,例如極長的提示詞、特定的排版方式或變形文字,誘導模型繞過內建的安全機制。Anthropic先前開發了一個原型版本的憲法式分類器,主要針對涉及化學、生物、放射性及核能相關的知識進行封鎖,並邀請外部專家參與越獄挑戰。最終在為期兩個月、合計超過三千小時的攻防實驗中,無人能以單一通用攻擊方法成功繞過所有限制。雖然原型系統防禦效果亮眼,但拒絕過多以及運算成本高昂等缺點,成為實際部署的阻礙。Anthropic現在發布的憲法式分類器,便是原型系統改良後的成果,並表示在合成測試(Synthetic Evaluations)時能將越獄成功率從未使用分類器的86%降至4.4%,拒絕率僅略增0.38%,運算成本也僅比基準模型多約23.7%。憲法式分類器的概念與Anthropic先前提出的Constitutional AI相似,皆是透過一套預先定義的憲法式原則,來決定模型需回應或拒絕的內容,像是例如允許模型回答關於芥末醬的配方,但禁止回應有關芥子毒氣(Mustard Gas)的製作方式。研究人員先利用大型語言模型如Claude,依照預先訂定的原則,合成大規模合法與不合法對話範例,並做多語言轉換及各種文字風格變形,以形成多元化的訓練集。隨後再以人工篩選的無害樣本進行補充,藉此減少對正常查詢的誤判。最終訓練完成的輸入與輸出分類器能自動偵測潛在的違規或危險內容,阻擋絕大多數嘗試繞過管制的手段。雖然憲法式分類器在測試中展現優異的防禦能力,但Anthropic仍強調這並非萬無一失的解決方案。目前的防護機制能夠大幅提高攻擊門檻,使越獄變得更困難,但無法完全排除未來可能出現的新型態攻擊,因此建議搭配其他輔助防禦措施,並透過持續更新憲法規則來應對新興的安全挑戰。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Anthropic 宪法式分类器 越狱攻击 AI安全
相关文章