Meta開源多項Llama安全護欄工具防範AI越獄、提示注入、不安全外掛

AI & Big Data 05月01日 18:23

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Meta近日推出一系列Llama模型安全工具，旨在提升AI模型的安全性。其中包括Llama Firewall，作为LLM护栏工具，可与Llama Guard、Prompt Guard和CodeShield协同，检测并防止提示注入、不安全代码以及可疑的LLM外挂互动。Llama Guard 4作为可定制化Llama Guard模型的最新版，具备多模态理解能力。此外，Meta还发布了Prompt Guard 2指令安全模型，以及开源安全评估套件CyberSec Eval 4中的两项工具，并分享了Automated Sensitive Doc Classification Tool和Llama Generated Audio Detector & Llama Audio Watermark Detector给特定合作伙伴，用于防止数据外泄和deepfake诈骗。

🛡️Llama Firewall：作为LLM护栏工具，它作用于用户和LLM模型之间，可与Meta的防护模型协同工作，检测并防止提示注入、不安全代码以及可疑的LLM外挂互动，从而增强模型的安全性。

👀Llama Guard 4：新版Llama Guard模型具备120亿参数，支持多模态输入（包括文字和图片），并提供多个模型检查点和互动式notebook，方便用户进行微调，提升模型的适应性和安全性。

🚨Prompt Guard 2：提供两个指令安全模型，其中Prompt Guard 2 86M提高了越狱及指示注入的侦测能力，而Prompt Guard 2 22M则为轻巧版，降低了延迟性和运算需求，同时支持非英语的提示输入检查。

🔐数据安全工具：Meta还推出了Automated Sensitive Doc Classification Tool，用于分类、标记内部重要文件，防止员工未经授权的访问或散布。此外，Llama Generated Audio Detector & Llama Audio Watermark Detector则可检测文件或照片是否为AI生成，防止诈骗或钓鱼。

Meta本周公開了Llama模型安全工具，以防範Llama模型越獄、提示注入攻擊，此外也發表SOC AI安全評估工具、以及供企業防止資料外洩、與deepfake詐騙的檢測工具。

最新的LlamaFirewall是LLM護欄工具，它作用於使用者和LLM模型、以及模型與代理人之間，可與Meta的防護模型像是Llama Guard、Prompt Guard，以及和CodeShield過濾工具、掃瞄工具協同，以偵測並防止提示注入、不安全程式碼，或是和可疑的LLM外掛互動。

Llama Guard 4為可客製化Llama Guard模型的最新版，為120億參數的多模態安全模型，能理解多模態包括文字和圖片輸入。Guard 4並提供多個模型檢查點及互動式notebook方便用戶微調。

Meta並提供2個Prompt Guard 2指令安全模型。Prompt Guard 2 86M為Prompt Guard分類器模型的最新版，提高了越獄及指示注入的偵測能力。Prompt Guard 2 22M則為輕巧版，聲稱較86M版降低75%延遲性及運算需求。如同Prompt Guard，新模型都可支援非英語的提示輸入檢查。

上述安全工具已於Llama Protections網站、Hugging Face及GitHub向社群公開。

除了Llama護欄工具，Meta也發表開源安全評估套件CyberSec Eval 4二項工具。一為Meta和CrowdStrike合作開發，以量測安全監控中心（SOC）AI效能的CyberSOC Eval框架，本工具很快會公開。第二則是AutoPatchBench，用以評估Llama和其他AI系統自動修補安全漏洞的能力。

Meta另外透過Llama Defender方案，將二項安全工具分享給特定合作夥伴。一為Automated Sensitive Doc Classification Tool，可分類、標籤內部重要文件，防止員工無授權存取或散布，目前已可在GitHub下載。二是Llama Generated Audio Detector & Llama Audio Watermark Detector，可偵測文件或照片是否為AI生成，防止詐騙或釣魚，本工具已提供給ZenDesk、Bell Canada及AT&T整合於其系統中。其他企業也可申請加入。

最後，Meta為WhatsApp也展示了名為Private Processing的工具。該工具和Meta AI一樣能協助摘錄未讀訊息、或是潤飾信件，但它能確保隱私，連Meta或WhatsApp都無法存取。不過該工具目前仍由Meta和安全專家合作改善中，日後才會正式推出。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签