盘古全球研究暴露的新兴人工智能安全风险

Pangea的一项全球研究强调了与人工智能系统在企业环境中快速部署相关的新的安全漏洞。

这项研究涉及Pangea的10,000美元快速注射挑战,分析了来自85个国家的800多名参与者提交的近33万次现实世界攻击尝试。

挑战涉及参与者试图在2025年3月绕过三个虚拟房间的AI安全护栏,难度不断增加,从而生成有关当前AI安全实践的大量数据。

这项研究的推动是在许多行业采用生成式人工智能的急剧增加,企业使用人工智能应用程序进行涉及客户,员工和敏感内部系统的交互。研究人员观察到,尽管这种快速的采用,但许多组织中以人工智能为重点的特定安全措施并没有跟上步伐,这些组织通常主要依赖于人工智能模型本身提供的默认保护。

Pangea在挑战赛中的数据集揭示了几个漏洞。一个重要的发现是大型语言模型(LLM)安全性的非确定性。快速注入攻击,一种攻击者操纵输入以引发人工智能系统不期望响应的方法,被发现不可预测地成功。由于 LLM 处理中的潜在随机性,在第 100 次尝试中以相同的输入失败 99 次攻击可以成功。

该研究还揭示了数据泄露和对抗性侦察的巨大风险。使用提示注入的攻击者可以操纵AI模型来披露系统运行环境的敏感信息或上下文细节,例如服务器类型和网络访问配置。

“这一挑战让我们对攻击者今天针对人工智能应用程序使用的现实世界策略具有前所未有的可见性,”Pangea联合创始人兼首席执行官Oliver Friedrichs说。“我们观察到的攻击的规模和复杂程度揭示了人工智能安全威胁的巨大而快速演变的性质。防御这些威胁必须是安全团队的核心考虑因素,而不是复选框或事后的想法。

研究结果表明,基本防御,如原生的LLM护栏,使组织特别暴露。研究表明,大约十分之一的快速注射尝试成功了这些默认保护,而多层防御则将成功攻击的速率降低了很大幅度。

代理人工智能,其中系统具有更大的自主权和直接访问数据库或工具,被发现会放大组织风险。当受到攻击时,这些系统可能会允许攻击者在网络中横向移动,从而增加伤害范围。

专业渗透测试仪乔伊·梅洛(Joey Melo)是唯一一位成功绕过所有三个虚拟安全室的人,他花了两天时间开发了一种多层策略,最终击败了三号房间的单一防御水平。

Cloudflare、Uber和Facebook前首席安全官乔·沙利文(Joe Sullivan)评论了Pangea研究强调的风险。“当攻击者可以操纵提示从LLM中提取敏感或专有信息时,特别是如果模型可以通过RAG,插件或系统指令访问机密数据,那么提示注入就特别令人担忧,”沙利文说。更糟糕的是,在连接到API的自治代理或工具中,提示注入可能导致LLM执行未经授权的操作,例如发送电子邮件,修改文件或发起金融交易。

针对这些发现,Pangea建议为部署AI应用程序的企业提供一套安全措施。其中包括多层护栏,以防止及时注入和数据泄露,限制输入语言和允许在高安全环境中进行操作,针对AI漏洞的连续红队测试,模型随机性设置的管理,以及专门跟踪提示注入威胁的人员或合作伙伴的分配。

弗里德里希斯在发言中强调了这个问题的紧迫性。“该行业没有对这种风险给予足够的关注,并且在许多情况下低估了其影响,玩了一场危险的观望游戏。人工智能的变化和采用速度令人震惊——比过去几十年中任何技术转型都要快。随着组织快速部署新的人工智能功能,并增加对这些系统进行关键操作的依赖,安全差距每天都在扩大。现在是时候超越这些担忧了。

Pangea的完整研究报告“防御快速注入:30万次攻击的见解”是公开的。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签