Meta本周公開了Llama模型安全工具,以防範Llama模型越獄、提示注入攻擊,此外也發表SOC AI安全評估工具、以及供企業防止資料外洩、與deepfake詐騙的檢測工具。
最新的LlamaFirewall是LLM護欄工具,它作用於使用者和LLM模型、以及模型與代理人之間,可與Meta的防護模型像是Llama Guard、Prompt Guard,以及和CodeShield過濾工具、掃瞄工具協同,以偵測並防止提示注入、不安全程式碼,或是和可疑的LLM外掛互動。
Llama Guard 4為可客製化Llama Guard模型的最新版,為120億參數的多模態安全模型,能理解多模態包括文字和圖片輸入。Guard 4並提供多個模型檢查點及互動式notebook方便用戶微調。
Meta並提供2個Prompt Guard 2指令安全模型。Prompt Guard 2 86M為Prompt Guard分類器模型的最新版,提高了越獄及指示注入的偵測能力。Prompt Guard 2 22M則為輕巧版,聲稱較86M版降低75%延遲性及運算需求。如同Prompt Guard,新模型都可支援非英語的提示輸入檢查。
上述安全工具已於Llama Protections網站、Hugging Face及GitHub向社群公開。
除了Llama護欄工具,Meta也發表開源安全評估套件CyberSec Eval 4二項工具。一為Meta和CrowdStrike合作開發,以量測安全監控中心(SOC)AI效能的CyberSOC Eval框架,本工具很快會公開。第二則是AutoPatchBench,用以評估Llama和其他AI系統自動修補安全漏洞的能力。
Meta另外透過Llama Defender方案,將二項安全工具分享給特定合作夥伴。一為Automated Sensitive Doc Classification Tool,可分類、標籤內部重要文件,防止員工無授權存取或散布,目前已可在GitHub下載。二是Llama Generated Audio Detector & Llama Audio Watermark Detector,可偵測文件或照片是否為AI生成,防止詐騙或釣魚,本工具已提供給ZenDesk、Bell Canada及AT&T整合於其系統中。其他企業也可申請加入。
最後,Meta為WhatsApp也展示了名為Private Processing的工具。該工具和Meta AI一樣能協助摘錄未讀訊息、或是潤飾信件,但它能確保隱私,連Meta或WhatsApp都無法存取。不過該工具目前仍由Meta和安全專家合作改善中,日後才會正式推出。