AI & Big Data 05月01日 18:23
Meta開源多項Llama安全護欄工具 防範AI越獄、提示注入、不安全外掛
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta近日推出一系列Llama模型安全工具,旨在提升AI模型的安全性。其中包括Llama Firewall,作为LLM护栏工具,可与Llama Guard、Prompt Guard和CodeShield协同,检测并防止提示注入、不安全代码以及可疑的LLM外挂互动。Llama Guard 4作为可定制化Llama Guard模型的最新版,具备多模态理解能力。此外,Meta还发布了Prompt Guard 2指令安全模型,以及开源安全评估套件CyberSec Eval 4中的两项工具,并分享了Automated Sensitive Doc Classification Tool和Llama Generated Audio Detector & Llama Audio Watermark Detector给特定合作伙伴,用于防止数据外泄和deepfake诈骗。

🛡️Llama Firewall:作为LLM护栏工具,它作用于用户和LLM模型之间,可与Meta的防护模型协同工作,检测并防止提示注入、不安全代码以及可疑的LLM外挂互动,从而增强模型的安全性。

👀Llama Guard 4:新版Llama Guard模型具备120亿参数,支持多模态输入(包括文字和图片),并提供多个模型检查点和互动式notebook,方便用户进行微调,提升模型的适应性和安全性。

🚨Prompt Guard 2:提供两个指令安全模型,其中Prompt Guard 2 86M提高了越狱及指示注入的侦测能力,而Prompt Guard 2 22M则为轻巧版,降低了延迟性和运算需求,同时支持非英语的提示输入检查。

🔐数据安全工具:Meta还推出了Automated Sensitive Doc Classification Tool,用于分类、标记内部重要文件,防止员工未经授权的访问或散布。此外,Llama Generated Audio Detector & Llama Audio Watermark Detector则可检测文件或照片是否为AI生成,防止诈骗或钓鱼。

Meta本周公開了Llama模型安全工具,以防範Llama模型越獄、提示注入攻擊,此外也發表SOC AI安全評估工具、以及供企業防止資料外洩、與deepfake詐騙的檢測工具。

最新的LlamaFirewall是LLM護欄工具,它作用於使用者和LLM模型、以及模型與代理人之間,可與Meta的防護模型像是Llama Guard、Prompt Guard,以及和CodeShield過濾工具、掃瞄工具協同,以偵測並防止提示注入、不安全程式碼,或是和可疑的LLM外掛互動。

Llama Guard 4為可客製化Llama Guard模型的最新版,為120億參數的多模態安全模型,能理解多模態包括文字和圖片輸入。Guard 4並提供多個模型檢查點及互動式notebook方便用戶微調。

Meta並提供2個Prompt Guard 2指令安全模型。Prompt Guard 2 86M為Prompt Guard分類器模型的最新版,提高了越獄及指示注入的偵測能力。Prompt Guard 2 22M則為輕巧版,聲稱較86M版降低75%延遲性及運算需求。如同Prompt Guard,新模型都可支援非英語的提示輸入檢查。

上述安全工具已於Llama Protections網站、Hugging FaceGitHub向社群公開。

除了Llama護欄工具,Meta也發表開源安全評估套件CyberSec Eval 4二項工具。一為Meta和CrowdStrike合作開發,以量測安全監控中心(SOC)AI效能的CyberSOC Eval框架,本工具很快會公開。第二則是AutoPatchBench,用以評估Llama和其他AI系統自動修補安全漏洞的能力。

Meta另外透過Llama Defender方案,將二項安全工具分享給特定合作夥伴。一為Automated Sensitive Doc Classification Tool,可分類、標籤內部重要文件,防止員工無授權存取或散布,目前已可在GitHub下載。二是Llama Generated Audio Detector & Llama Audio Watermark Detector,可偵測文件或照片是否為AI生成,防止詐騙或釣魚,本工具已提供給ZenDesk、Bell Canada及AT&T整合於其系統中。其他企業也可申請加入

最後,Meta為WhatsApp也展示了名為Private Processing的工具。該工具和Meta AI一樣能協助摘錄未讀訊息、或是潤飾信件,但它能確保隱私,連Meta或WhatsApp都無法存取。不過該工具目前仍由Meta和安全專家合作改善中,日後才會正式推出。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Meta Llama模型 AI安全 数据安全
相关文章