研究人员警告 AI 图像生成模型可能会泄露敏感指令

HackerNews 2024年11月15日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

近期，AI图像生成模型Recraft被发现存在潜在的安全漏洞，能够泄露敏感的系统指令。Recraft采用两级架构，利用大型语言模型处理用户提示并传递给扩散模型，从而生成更复杂的图像。然而，研究人员发现，通过特定的提示，可以诱使Recraft泄露部分内部指令，例如图像描述风格、构图细节等。这一事件引发了人们对AI模型安全性和隐私性的担忧，强调了在AI技术发展过程中确保系统安全的重要性。

🤔**Recraft AI图像生成模型采用两级架构:** 该模型包含大型语言模型 (LLM) 处理和改写用户提示信息，以及将处理后的提示传递给扩散模型，这种架构使其能够处理复杂的查询并生成更准确的图像。

🔎**Recraft存在潜在安全漏洞：** 研究人员发现，通过特定的提示，可以诱使Recraft泄露部分内部指令，例如图像描述风格、构图细节等，这些指令原本用于指导模型的行为。

⚠️**泄露的系统指令可能带来安全风险：** 恶意行为者可能利用提取的敏感指令操纵系统、绕过安全措施或深入了解专有的人工智能技术，造成潜在的安全威胁。

🔔**AI模型安全至关重要：** 该事件警示AI开发人员和研究人员，随着AI技术不断发展，确保AI模型的安全性和完整性变得至关重要，以防止潜在的安全风险。

💡**事件引发对AI安全和隐私的关注：** Recraft泄露内部指令的事件引发了人们对AI模型安全性和隐私性的担忧，强调了在AI技术发展过程中需注重安全和隐私保护。

据Cyber Security News消息，研究人员最近在高级人工智能图像生成模型中发现了一个潜在的安全漏洞，能够在无意中泄露敏感系统指令，尤其是在高级扩散模型 Recraft 中。

近来，以Stable Diffusion 和 Midjourney 为代表的图像生成模型在人工智能生成图像领域掀起了一场革命。Invicti 的安全研究人员称，Invicti 公司的安全研究人员发现，这些模型的工作原理是通过一种称为 “去噪 “的过程，将随机噪音逐渐细化为清晰的图片。

目前在文本到图片排行榜上处于领先地位的 Recraft 所展示的功能已经超越了典型的扩散模型。研究人员注意到，Recraft 可以完成图像生成模型通常无法完成的语言任务。例如，当提示数学运算或地理问题时，Recraft 会生成包含正确答案的图像，而其他模型则不同，它们只是将文本可视化，而无法理解。

此外，进一步的调查还发现，Recraft 采用了两级架构：大型语言模型 (LLM) 处理和改写用户提示信息，以及将处理后的提示传递给扩散模型。这种独特的方法使 Recraft 能够处理复杂的查询，并生成更准确、更能感知上下文的图像。不过也带来了一个潜在的漏洞。

通过仔细实验，研究人员发现某些提示可以诱使系统泄露部分内部指令。通过生成带有特定提示的多个图像，研究人员能够拼凑出用于指导大模型行为的系统提示片段。

一些泄露的说明包括：以 “法师风格 “或 “形象风格 “开始描述、提供物体和人物的详细描述、将说明转化为描述性句子、包括具体的构图细节、避免使用 “太阳 “或 “阳光 “等词语、必要时将非英语文本翻译成英语。

这种无意中泄露系统提示的行为引起了人们对人工智能模型的安全性和隐私性的极大关注。如果恶意行为者能够提取敏感指令，他们就有可能操纵系统、绕过安全措施或深入了解专有的人工智能技术。

这一事件为 AI 开发人员和研究人员敲响了警钟，随着 AI 不断进步并更深入地融入我们生活的各个方面，确保这些系统的安全性和完整性变得至关重要。

转自Freebuf，原文链接：https://www.freebuf.com/news/415336.html

封面来源于网络，如有侵权请联系删除

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签