2025-03-21 18:56 北京
AI时代,谁在悄悄“开盒”你的核心竞争力?
News Today
近期,“人肉开盒”事件引发热议,将个人隐私保护问题推上风口浪尖。数字技术的发展为人们的生活带来前所未有的便捷,但同时也让每一个人、每一个企业单位都暴露在前所未有的“开盒”风险之下。尤其是随着大模型的广泛应用,企业的客户信息、商业机密等敏感数据也面临着前所未有的泄露风险。
备受关注的某国产通用AI Agent产品最近因用户“神操作”,意外揭开了自己的“底牌”。据悉该用户向产品请求输出“/opt/.manus/”目录下的文件,巧妙诱导其“自报家门”,便成功获取了该产品的提示词、运行代码及底层模型信息。这种“越狱”式的提示词操作,成功绕过了产品的限制,获取了本不应公开的信息,引发人们对大模型提示注入攻击讨论。
提示词注入攻击是大模型面临的重要风险
提示词注入攻击是一种针对大语言模型(LLM)和生成式人工智能系统的攻击技术,攻击者通过构造恶意指令或污染数据源,利用模型对语言的敏感性和回答机制,诱导模型输出非预期内容,甚至泄露敏感信息。提示词注入攻击类型多样,例如:
AI
直接提示词注入
攻击者直接在输入的提示词中嵌入恶意指令,通过显式指令覆盖模型的预设规则,直接诱导模型执行恶意操作。上文提到的AI Agent产品泄露事件便是典型的直接提示词注入攻击。
AI
间接提示词注入
攻击者将恶意指令隐藏在看似无害的请求中,通过隐喻、比喻或巧妙措辞设计,将提示伪装成普通问题,诱导系统输出内部规则或敏感信息。例如经典的“奶奶漏洞”攻击,诱导大模型扮演自己的奶奶,从而绕过系统的安全机制,让大模型提供Windows系统激活码获其他敏感信息。
AI
多模态注入
攻击者通过图像、音频等非文本输入嵌入攻击指令,注入恶意提示词,进而出发模型执行恶意操作。例如制作一张看似无害的二维码图片,但实际上包含能够触发模型执行不安全操作的指令。当模型被要求识别或解释这张图片时,便会受到恶意指令的影响。
辛苦调教的大模型变成泄密帮凶、商业机密被轻松获取……提示词注入攻击已成为大模型面临的重要安全挑战。只有在安全与合规的基础上,AI技术才能成为推动业务增长的强大动力,而非不可控的“定时炸弹”。
360智盾为大模型加上安全护栏
360智盾基于“以模制模”思路,结合大模型持续预训练、微调对齐、慢思考机制、RAG检索增强生成以及红蓝对抗等多种技术手段,打造了全流程、多种类、多模态、场景化的内容安全体系,实现对大模型内容安全的全面保护。
全流程内容安全保障
360智盾覆盖大模型应用的完整生命周期,针对输入内容,360智盾可以对进行风险检测,对内容做分级分类处理并给出分级处置建议;针对敏感问题,通过训练专项安全回复大模型,确保回复安全、向善,符合社会主义核心价值观;针对输出内容,360智盾可以进行风险检测并及时阻断。
多种类内容识别
360智盾支持100多类风险内容的识别过滤,涵盖超200种对抗内容防御机制,风险识别范围完全覆盖《生成式人工智能服务管理暂行办法》。
场景化策略定制
360智盾通过平台定制化场景风控策略,以满足教育、医疗、政务等不同场景的风控需求。
多模态风险内容识别
360智盾基于领先的多模态风险识别技术,支持文本、图片、音频、视频等多种类型的风险防护。
此外,360大模型安全解决方案可以针对性解决大模型发展面临的系统安全、数据安全、幻觉问题以及行为失控等挑战,全过程守护大模型落地应用。目前,360大模型安全解决方案已在政务、税务、医疗等垂直行业落地应用,未来,360将继续护航大模型安全,为全球人工智能技术治理提供了可借鉴的“中国方案”。
往期推荐
| |||
| |||
| |||
|