AI & Big Data 04月23日 16:07
【臺灣資安大會直擊】酷澎如何用LLM檢測AI安全性與可信度
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

随着大型语言模型(LLM)的广泛应用,保障AI的安全性、可信度以及应对潜在风险变得至关重要。文章探讨了LLM安全验证中面临的四大挑战:高昂的成本、结果的不可重现性、人类标准的不统一以及对抗式攻击的风险。针对这些挑战,文章提出了自动化验证机制、蒙特卡罗模拟、制定统一判断标准、采用多模型验证以及掌握对抗式攻击技术等解决方案,并介绍了酷澎公司如何通过LLM-as-a-Judge机制来构建更可靠的LLM安全验证流程。

💡成本挑战:LLM安全验证的成本不仅体现在金钱上,更在于时间成本和可验证的题目数量。手动验证效率低下,难以进行深入全面的安全测试。

🔄结果重现性:由于LLM输出结果的不确定性,即使输入相同的提示词,每次输出结果也可能不同,导致难以定位和深入研究模型问题。

⚖️人类标准差异:不同人群、企业、领域和文化对公平性和道德的见解存在差异,这使得在没有标准答案的问答中,验证结果难以统一。

🛡️对抗式攻击风险:即使模型通过了验证,恶意参数的微调或训练数据仍可能导致模型产生有害内容,从而破坏验证成果。

🤖LLM-as-a-Judge机制:酷澎公司提出的自动化验证机制,通过Planner、Tester和Evaluator三个组件,分别负责分析潜在错误、生成测试问题和评估模型表现,从而提升LLM的安全性。

隨著大型語言模型(LLM)應用普及,負責任AI、AI安全性、AI可信度,成為企業要保護商譽及資訊安全,更須注重的議題。酷澎資安工程總監周彥儒說:「只要是風險之所在,就是驗測之所在。反覆驗證LLM安全才能避免輸出有害內容,建立信任。」

他觀察,目前LLM安全驗測主要方式是,用Excel檔或其他資料集形式的大量測試問題,輸入LLM,人工審查回應是合乎企業對模型的要求。不過,這種驗證做法有4個常見挑戰:成本過高、無法重現結果、人類標準不一,以及對抗式攻擊的風險。

首先是成本過高。周彥儒解釋,成本不只是金錢,更重要的是時間成本,以及能夠驗測的題目量。他估算,一個人進行提示詞製作,輸入LLM,取得回應,人工評估,每小時做20題已經算多,一整天下來,驗測不到200題。要深入且全面安全驗測,這個數量遠遠不夠。

再來是結果無法重現。當驗測人員疑似找到問題,就算輸入相同提示詞,LLM每次輸出結果都不盡相同,無法重現模型問題,來鎖定問題、深入研究。

人類標準不一意即,即使使用同樣驗測範例,不同人、情境、企業、領域、文化,對於公平性和道德的見解都會不同。當牽涉到沒有標準答案的問答,問題會更加明顯。

最後一項挑戰來自對抗式攻擊的風險,周彥儒指出,即便模型驗測結果理想,只要有人使用帶有惡意的參數微調或訓練資料,有可能令模型產生截然不同的生成內容,使先前辛苦驗測、調整模型前功盡棄。

LLM驗測流程要融入最佳實踐方法,自動化是大前提

周彥儒一一給出這4大挑戰的解法。首先,面對成本過高問題,驗測者應打造自動化驗測機制,來大量重複執行驗測。有了自動化驗測機制,還能使其他挑戰的解法變得可行。

例如,要解可重現性挑戰,可使用蒙地卡羅模擬(Monte Carlo Simulation),自動對提示詞作出些微變化,進行大量測試,來看出現不合格回應的機率高低,並評估風險是否可接受。「既然LLM是一種基於機率的模型,驗證方法也該是一種機率性驗證。」他說。

針對人類標準不一挑戰,企業可以先制定統一判斷基準,讓驗測機制一視同仁的自動化執行,避免人類判斷的不穩定性。不只如此,周彥儒還建議加上多數決機制,讓驗測機制再次判斷審查回應的結論是否合理,做為第二層保險。舉例來說,可以讓多個模型驗測相同問答,當多數模型判斷LLM回答合格,才真正合格。

因應對抗式攻擊的方法,則是由驗測人員掌握好對抗式攻擊的TPP(技巧、戰術、程序),並教導給自動化驗測機制,使其能反覆針對攻擊方法來測試模型防禦力。

酷澎綜合前述前述4大挑戰的應對概念,採取LLM-as-a-Judge做法,打造出一套用LLML驗測其他LLM的自動化驗測機制。

針對LLM驗測四大挑戰設計LLM-as-a-Judge機制

酷澎的LLM-as-a-Judge自動化測驗機制,分為Planner、Tester、Evaluator三個元件。

Planner負責分析「模型可能如何出錯」。做法是,透過對話,對受驗測LLM做預測試,來了解模型特性,以及在不同應用情境上,會面臨到何種威脅。有這些資料,才能決定設計實際驗測題目的方向。

Tester則負責測試「模型有沒有可能出錯」,根據Planner提供的問題設計方向,生成實際驗測問題,來確認受測LLM是否會出現Planner所設想的風險。這些問題,會根據輸入輸出是否符合預期,分為4類情境的問題。輸入輸出都符合預期,屬於一般使用情境(Use case)。輸入不符預期,輸出符合預期,屬於邊緣案例或意外案例(Edge case)。例如,當客服機器人被用來當文書處理機器人,就屬於Edge case問題。

輸入符合預期,但輸出不符合預期,則是幻覺(Hallucination)。輸入輸出都不符預期,則是攻擊(Attack)。「防範攻擊是最需要創意的,因為要想像,自己想不到的攻擊方式,如何產生不預期的權限提升或回應。」

周彥儒建議,企業自己驗測LLM時,也需要針對這4大類情境來設計題目,並充分應用不同情境所對應的驗測技術。

Evaluator則負責判斷「模型是否真的出錯」,從模型回答Tester問題的結果,判斷受測模型是否符合Planner預想的風險情況,並告訴測試人員,受測模型在哪些面向,存在何種問題。不只如此,Evaluator還需要回饋Planner和Tester,對受測模型的出題方向和題目設計,能如何優化。

追蹤驗測機制的重要KPI,來改善驗測品質

酷澎也對這3個元件設置不同的KPI來追蹤,以持續改善驗測品質。

酷澎追蹤Planner的KPI是,Planner生成問題集中,預想威脅與模型實際使用情境的對齊程度,以F1分數表示。周彥儒進一步說明,Planner功能表現良好與否,取決於題目設計方向是否符合實際模型功能與應用場景。舉例來說,當一個模型功能只負責檔案歸類,根本沒有RAG能力,更沒有其他存取外部資料功能。就算拿個資外洩的題目測試,且模型有回應,也只能得出「會產生幻覺」的結論,但並沒有真正個資外洩風險。

Tester的KPI則是受測模型被驗證集攻擊的ASR(攻擊成功率)。透過比較受測模型和其他模型的ASR,酷澎可以比較出,受測模型經過Tester驗測後,提升多少防禦能力。從模型被攻擊成功的情況分布中,還可以看到,Tester產生的題目,是深度還是廣度上不足。周彥儒說,只有兩者兼具,才能確保驗測內容具足夠代表性,能完整找出模型的風險。

Evaluator的KPI則是模型回應與人類反應的相符程度,同樣以F1分數來表示,並分為一致性、複雜性、真實性、有害性等不同面向。這些指標是用來評估,自動化驗證機制判斷回應為合格時,是否確實符合企業價值。

強化LLM驗測品質的未來計畫

周彥儒說,酷澎鎖定了3個未來可以強化LLM驗測品質的方向。

首先是導入動態的價值判斷基準。同一個LLM回應,於不同情境下,可接受程度應該不同。舉例來說,如果今天有人被困在坍方的山洞,需要學習製作炸彈來逃出生天,LLM生成炸藥製作教學,就相較其他情境下更合情合理。現行靜態基準,則較難針對個別情境來判斷回應是否合乎企業價值。

再來,是嘗試多模態驗測,而非只驗測語言輸入輸出。隨著LLM能力強化,更多人開始利用AI生成圖片、音訊、影片等內容。這些生成結果,也可能產生風險,因而需要驗測。

最後則是運用聯邦學習。周彥儒表示,當LLM應用普及到不同場景、系統、裝置,不同環境都需要顧及各自資料隱私和保密性。此時,便能採用聯邦學習技術,來綜合不同場景的驗測經驗和資料,進一步改善LLM驗測品質。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LLM AI安全 自动化验证 对抗式攻击
相关文章