2025-01-26 09:56 云南
生成式AI(GenAI)系统安全性一直备受关注,微软对100多款GenAI产品进行了红队测试,详细阐述了微软的内部安全测试模型本体论(ontology),并分享了八个主要教训和五个案例研究,旨在为实际的红队测试提供指导。
要了解系统能够做什么以及它被应用在何处
破坏AI系统并不一定要计算梯度
AI红队测试并非安全基准测试
自动化有助于覆盖更多的风险领域
人类因素在AI红队测试中至关重要
负责任的AI危害普遍存在但难以衡量
大语言模型(LLM)会放大现有的安全风险并引入新的风险
保障AI系统安全的工作永远不会完结
微软AIRT用于建模GenAI系统风险的本体论。AIRT经常利用多个战术、技术及程序(TTPs),这些TTPs可能会利用多个弱点并产生多个影响。此外,解决一个弱点可能需要不止一种缓解措施。需要注意的是,AIRT的任务仅是识别风险,而产品团队则负责开发适当的缓解措施。
案例研究 # 1: 视觉语言模型(VLM)生成不好内容
案例研究 #2: 大模型(LLM)越狱(STT/TTS结合)
案例研究 #3: 评估大模型聊天机器人如何回应处于困境中的用户
案例研究 #4: 探测文本到图像生成器的偏见
案例研究 #5: 视频处理GenAI应用中的SSRF漏洞
https://arxiv.org/pdf/2501.07238
Lessons From Red Teaming 100 Generative AI Products
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• 追平满血版o1,多模态思考模型Kimi 1.5带来多项技术创新
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。