AI & Big Data 18小时前
Google引入用戶層級差分隱私,最佳化LLM微調效能與隱私
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Google 最新研究聚焦于在大型语言模型微调过程中,如何在保障用户隐私的同时,提升模型性能。研究通过优化用户层级差分隐私技术,解决了过去该技术在大型模型训练中因噪声过大而影响模型表现的问题。该研究重点在于改进差分隐私随机梯度下降训练法,并提出用户贡献上限预先设定策略,以减少训练所需的噪声量,提高模型效率。实验结果表明,优化后的方法在保证用户隐私的前提下,模型性能优于未经微调的预训练模型。

🛡️ 传统的差分隐私主要保护单个样本,而用户层级差分隐私则更进一步,确保攻击者无法从模型推断出特定用户的数据是否被用于训练,从而增强用户隐私保护。

💡 Google团队通过研究发现,过去对于用户层级差分隐私所需的噪声量被普遍高估。实际应用中,所需的噪声可以大幅减少,这有助于在不影响隐私保障的前提下,提升模型训练效果。

⚙️ 研究团队比较了样本层级随机抽样(ELS)和用户层级随机抽样(ULS)两种方法。两种方法均通过预处理限制每位用户的最大样本数,以降低单用户数据对模型的影响,然后进行后续训练。

📈 研究团队在公开的StackOverflow与CC-News数据集上,以3.5亿参数规模的Transformer模型进行测试。实验结果显示,在最佳化的用户层级差分隐私方法下,微调后模型效能优于未微调的预训练模型。

Google發表針對大型語言模型微調過程,導入用戶層級差分隱私的最新研究。研究成果在於兼顧模型效能與用戶隱私的前提下,解決過去在大型模型訓練時執行用戶層級差分隱私(Differential Privacy)雜訊過多,導致模型表現受限的問題。

目前開發者在應用大型語言模型時,往往需微調模型提升效能表現,但這些應用大多涉及用戶資料,特別是金融、醫療或個人化推薦等對資料敏感度要求較高的場景。傳統差分隱私著重於單一樣本層級的保護,能降低單筆資料外洩的風險,但Google提到,當單一用戶貢獻多筆資料時,現有方法難以防止判斷用戶是否參與訓練。用戶層級差分隱私則進一步保障用戶隱私,讓攻擊者無法從模型推測特定用戶的資料是否被用於訓練。

Google團隊說明,相較於樣本層級差分隱私,用戶層級差分隱私在訓練過程中須注入更多雜訊,才能確保每位用戶的隱私,不過雜訊增加同時會降低模型學習能力,影響整體效能。此挑戰在大型語言模型等需要大量運算資源的訓練過程中更為明顯。過去用戶層級差分隱私大多應用於聯邦學習(Federated Learning)等分散式訓練場景,對於雲端資料中心大規模模型訓練,現有方法則面臨實作與效能的挑戰。

Google提出的新技術重點,在模型微調階段的用戶層級差分隱私最佳化策略,針對差分隱私隨機梯度下降訓練法進行調整。研究團隊比較樣本層級隨機抽樣(Example-Level Sampling,ELS)及用戶層級隨機抽樣(User-Level Sampling,ULS)兩種方法。這兩種方式均透過前處理限制每位用戶的最大樣本數,以降低單一用戶資料對模型的影響,然後進行後續訓練。

Google團隊發現過去對於應注入的雜訊量普遍高估,實際所需雜訊可大幅減少,有助於在不影響隱私保障前提增加模型訓練成效。此外,研究團隊提出用戶貢獻上限預先設定策略,協助開發者在訓練前就選定最佳參數,無需多次試錯,進一步降低資源消耗與訓練成本。

研究團隊在公開的StackOverflow與CC-News資料集上,以3.5億參數規模的Transformer模型進行測試。實驗結果顯示,在最佳化的用戶層級差分隱私方法,微調後模型效能優於未經微調的預訓練模型,而多數情境,ULS模式可取得較佳效能,僅於部分高隱私需求或運算資源有限的情況,ELS模式才具有競爭力。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Google 大型语言模型 差分隐私 模型微调 隐私保护
相关文章