2025-03-26 17:31 江苏

3月26日-5月11日

关注公众号，发现CV技术之美

如果一个陌生人突然向你询问危险品的制作方法，你会提供吗？以下是一组向大模型寻求危险品制作方法的输入，我们可以立即意识到正确回答的潜在危害性，但多模态大模型（Multimodal Foundation Model）却按要求违规提供了制作的相应步骤，难道是大模型“黑化”了？

[1] Ying, Z., Liu, A., Zhang, T., Yu, Z., Liang, S., Liu, X., & Tao, D. (2024). Jailbreak vision language models via bi-modal adversarial prompt. arXiv preprint arXiv:2406.04031.

对于人眼来说，这只是一张熊猫咆哮的图片与一条询问制作危险品方法的语句，并不能轻易地让我们说出危险品的制作方法。然而，这张图片和文本中添加了针对大模型特别设计的对抗扰动，绕过了多模态大模型的安全限制，诱导大模型产生违反其设计初衷或安全准则的输出。

像这种直接在多模态大模型的图文对输入中增加相关扰动，使多模态大模型产生违规输出的攻击手段，就是对多模态大模型最常用的越狱攻击方法之一。

这种攻击方法的潜在危害不可小觑。眼下，多模态大模型已经广泛应用于诸多领域，包括无人驾驶、医疗行业、社交媒体等。想象一下，当医院中用于辅助诊疗的大模型遭受越狱攻击时，它可能会泄露患者的病历等隐私数据，或为患者提供错误药方，进而影响患者的治疗方案和健康状况。这对我们的医疗安全产生了巨大的威胁。

构建安全、鲁棒的多模态大模型，促使其能够应对复杂越狱攻击场景下的威胁，在人工智能领域日益重要。然而，当前多数多模态大模型对于内部安全护栏设计尚不完善，现实世界中的多样性输入、恶意指令将严重影响大模型输出内容的安全性和合规性，为大模型安全可信应用带来极大挑战。

为了系统性地探索多模态大模型的潜在安全威胁，推动能够适应复杂对抗环境的鲁棒多模态大模型开发，北京航空航天大学联合中关村实验室、合肥综合性国家科学中心数据空间研究院、中国仿真学会视觉计算与仿真专委会等，举办面向多模态大模型的越狱攻击安全挑战赛——Jailbreaking Attacks on Multimodal Foundation Models。

本次大赛依托CVPR 2025的workshop“The 5th Workshop of Adversarial Machine Learning on Computer Vision: Foundation Models + X”展开，旨在鼓励研究者探索面向多模态大模型的黑盒越狱攻击算法。比赛以个人隐私泄露、社会道德违反等典型风险为评测维度，聚焦真实世界复杂风险类型和未知大模型结构等挑战性因素，深入剖析多模态大模型的安全风险，揭示潜在威胁，为构建更加安全、鲁棒的多模态大模型奠定基础。