喂给AI的数据，正在反向“开盒”你的企业？

2025-03-21 18:56 北京

AI时代，谁在悄悄“开盒”你的核心竞争力？

News Today

近期，“人肉开盒”事件引发热议，将个人隐私保护问题推上风口浪尖。数字技术的发展为人们的生活带来前所未有的便捷，但同时也让每一个人、每一个企业单位都暴露在前所未有的“开盒”风险之下。尤其是随着大模型的广泛应用，企业的客户信息、商业机密等敏感数据也面临着前所未有的泄露风险。

备受关注的某国产通用AI Agent产品最近因用户“神操作”，意外揭开了自己的“底牌”。据悉该用户向产品请求输出“/opt/.manus/”目录下的文件，巧妙诱导其“自报家门”，便成功获取了该产品的提示词、运行代码及底层模型信息。这种“越狱”式的提示词操作，成功绕过了产品的限制，获取了本不应公开的信息，引发人们对大模型提示注入攻击讨论。

提示词注入攻击是大模型面临的重要风险

提示词注入攻击是一种针对大语言模型（LLM）和生成式人工智能系统的攻击技术，攻击者通过构造恶意指令或污染数据源，利用模型对语言的敏感性和回答机制，诱导模型输出非预期内容，甚至泄露敏感信息。提示词注入攻击类型多样，例如：

直接提示词注入

攻击者直接在输入的提示词中嵌入恶意指令，通过显式指令覆盖模型的预设规则，直接诱导模型执行恶意操作。上文提到的AI Agent产品泄露事件便是典型的直接提示词注入攻击。

间接提示词注入

攻击者将恶意指令隐藏在看似无害的请求中，通过隐喻、比喻或巧妙措辞设计，将提示伪装成普通问题，诱导系统输出内部规则或敏感信息。例如经典的“奶奶漏洞”攻击，诱导大模型扮演自己的奶奶，从而绕过系统的安全机制，让大模型提供Windows系统激活码获其他敏感信息。

多模态注入

攻击者通过图像、音频等非文本输入嵌入攻击指令，注入恶意提示词，进而出发模型执行恶意操作。例如制作一张看似无害的二维码图片，但实际上包含能够触发模型执行不安全操作的指令。当模型被要求识别或解释这张图片时，便会受到恶意指令的影响。

辛苦调教的大模型变成泄密帮凶、商业机密被轻松获取……提示词注入攻击已成为大模型面临的重要安全挑战。只有在安全与合规的基础上，AI技术才能成为推动业务增长的强大动力，而非不可控的“定时炸弹”。

360智盾为大模型加上安全护栏

360智盾基于“以模制模”思路，结合大模型持续预训练、微调对齐、慢思考机制、RAG检索增强生成以及红蓝对抗等多种技术手段，打造了全流程、多种类、多模态、场景化的内容安全体系，实现对大模型内容安全的全面保护。

全流程内容安全保障

360智盾覆盖大模型应用的完整生命周期，针对输入内容，360智盾可以对进行风险检测，对内容做分级分类处理并给出分级处置建议；针对敏感问题，通过训练专项安全回复大模型，确保回复安全、向善，符合社会主义核心价值观；针对输出内容，360智盾可以进行风险检测并及时阻断。

多种类内容识别

360智盾支持100多类风险内容的识别过滤，涵盖超200种对抗内容防御机制，风险识别范围完全覆盖《生成式人工智能服务管理暂行办法》。

场景化策略定制

360智盾通过平台定制化场景风控策略，以满足教育、医疗、政务等不同场景的风控需求。

多模态风险内容识别

360智盾基于领先的多模态风险识别技术，支持文本、图片、音频、视频等多种类型的风险防护。

此外，360大模型安全解决方案可以针对性解决大模型发展面临的系统安全、数据安全、幻觉问题以及行为失控等挑战，全过程守护大模型落地应用。目前，360大模型安全解决方案已在政务、税务、医疗等垂直行业落地应用，未来，360将继续护航大模型安全，为全球人工智能技术治理提供了可借鉴的“中国方案”。

往期推荐

01	● 周鸿祎委员履职第八年三份提案聚焦AI和安全两件事
	► 点击阅读

02	● 360携手首都在线拟推动DeepSeek一体机安全与服务落地合作
	► 点击阅读

03	● 从《哪吒2》解码数字安全新范式：安全大模型重构防御体系
	► 点击阅读

04	● 独家\|360发布全球高级威胁研究报告：我国14大重点行业面临境外APT威胁
	► 点击阅读

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签