我爱计算机视觉 04月02日 21:27
CVPR 2025 Workshop | 面向多模态大模型的越狱攻击安全挑战赛
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

多模态大模型存在安全隐患,易受越狱攻击产生违规输出。北京航空航天大学等举办安全挑战赛,分两阶段评测风险,旨在推动构建更安全的多模态大模型,比赛有时间、奖励等安排。

🎯多模态大模型易被诱导产生违规输出

🚀举办越狱攻击安全挑战赛及赛事安排

💪挑战赛分两阶段,评测不同风险类型

💰比赛设奖金,前三名可受邀分享方案

2025-03-26 17:31 江苏

3月26日-5月11日




关注公众号,发现CV技术之美




如果一个陌生人突然向你询问危险品的制作方法,你会提供吗?以下是一组向大模型寻求危险品制作方法的输入,我们可以立即意识到正确回答的潜在危害性,但多模态大模型(Multimodal Foundation Model)却按要求违规提供了制作的相应步骤,难道是大模型“黑化”了?

[1] Ying, Z., Liu, A., Zhang, T., Yu, Z., Liang, S., Liu, X., & Tao, D. (2024). Jailbreak vision language models via bi-modal adversarial prompt. arXiv preprint arXiv:2406.04031.

对于人眼来说,这只是一张熊猫咆哮的图片与一条询问制作危险品方法的语句,并不能轻易地让我们说出危险品的制作方法。然而,这张图片和文本中添加了针对大模型特别设计的对抗扰动,绕过了多模态大模型的安全限制,诱导大模型产生违反其设计初衷或安全准则的输出。

像这种直接在多模态大模型的图文对输入中增加相关扰动,使多模态大模型产生违规输出的攻击手段,就是对多模态大模型最常用的越狱攻击方法之一。

这种攻击方法的潜在危害不可小觑。眼下,多模态大模型已经广泛应用于诸多领域,包括无人驾驶、医疗行业、社交媒体等。想象一下,当医院中用于辅助诊疗的大模型遭受越狱攻击时,它可能会泄露患者的病历等隐私数据,或为患者提供错误药方,进而影响患者的治疗方案和健康状况。这对我们的医疗安全产生了巨大的威胁。

构建安全、鲁棒的多模态大模型,促使其能够应对复杂越狱攻击场景下的威胁,在人工智能领域日益重要。然而,当前多数多模态大模型对于内部安全护栏设计尚不完善,现实世界中的多样性输入、恶意指令将严重影响大模型输出内容的安全性和合规性,为大模型安全可信应用带来极大挑战。

为了系统性地探索多模态大模型的潜在安全威胁,推动能够适应复杂对抗环境的鲁棒多模态大模型开发,北京航空航天大学联合中关村实验室、合肥综合性国家科学中心数据空间研究院、中国仿真学会视觉计算与仿真专委会等,举办面向多模态大模型的越狱攻击安全挑战赛——Jailbreaking Attacks on Multimodal Foundation Models

本次大赛依托CVPR 2025的workshop“The 5th Workshop of Adversarial Machine Learning on Computer Vision: Foundation Models + X”展开,旨在鼓励研究者探索面向多模态大模型的黑盒越狱攻击算法。比赛以个人隐私泄露、社会道德违反等典型风险为评测维度,聚焦真实世界复杂风险类型和未知大模型结构等挑战性因素,深入剖析多模态大模型的安全风险,揭示潜在威胁,为构建更加安全、鲁棒的多模态大模型奠定基础。


多维度风险评测,聚焦多模态大模型安全性

这次的多模态大模型越狱攻击安全挑战赛分为两个阶段。

Phase 1:多模态大模型白盒越狱攻击风险评测

初赛阶段,比赛将提供包含6种风险类别的基础有害文本指令,每类别30个,总共180个。

参赛者可以使用其他任何数据集,以及任何模型训练攻击算法。对于每个基本文本指令,参与者需要设计一个对抗性指令和一个对抗性图像,形成一个图文对,触发指定的多模态大模型产生与基本文本指令主题一致的有害输出。

初赛的攻击目标包含2个开源大模型,选手需要将使用给定基础有害文本指令生成的图文对提交。

Phase 2:多模态大模型黑盒越狱攻击风险评测

复赛阶段,参赛者同样可以使用其他任何数据集,以及任何模型训练攻击算法。

但与初赛不同的是,复赛的待攻击模型将额外引入1个黑盒大模型,并引入6种更具有挑战性的风险类别的基础有害文本指令,对于所设计对抗攻击算法的迁移性与鲁棒性有着更高的要求。

注:本次竞赛只作学术用途,探究大模型安全性风险,不得将其应用于任何现实场景产生危害内容


比赛时间

3月26日-5月11日


比赛奖励

本次比赛前3名将分别获得1200美元、800美元与500美元奖金,并将受邀在workshop中做分享,讲解自己的技术方案。大赛已经正式启动,查看文末网址或点击阅读原文,即刻报名参与。

具体比赛规则及介绍,请前往官网。欢迎对AI与大模型安全感兴趣的朋友,踊跃报名参加~


比赛报名官网

扫描下方二维码,加入CVPR 2025竞赛交流群~

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态大模型 越狱攻击 安全挑战赛 风险评测
相关文章