PaperWeekly 2024年10月18日
直播预告 | 南洋理工大学博士生邓岳:多语言环境下的大语言模型越狱挑战
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本次直播探讨大语言模型在多语言环境中的越狱问题,包括无意风险与有意攻击两类风险,还介绍了应对挑战的Self-Defence框架及实验结果,直播嘉宾为新加坡南洋理工大学博士生邓岳,直播时间为2024年10月19日10:00 - 11:00。

🎯大语言模型虽在多任务中强大,但存在越狱问题,即恶意指令可操控模型产生不良行为,多数防护措施限于英语场景。

💥多语言环境中的越狱问题存在两类风险,无意风险是用户使用非英语提示时意外绕过安全机制,有意攻击是恶意用户结合多语言提示与恶意指令故意攻击模型,且实验表明低资源语言的有害内容概率更高,也可作为攻击工具。

🛡为应对挑战,提出Self-Defence框架,通过自动生成多语言数据进行安全微调,实验结果显示该方法有效减少了不安全内容的生成。

和你一起进步的 2024-10-18 12:37 北京

快来预约开播提醒吧~





 AI安全说 第5期 


嘉宾在线解读✔️

在线实时Q&A✔️


 直播主题 


多语言环境下的大语言模型越狱挑战


 直播嘉宾 


邓岳

新加坡南洋理工大学博士生


 直播时间 


2024年10月19日(周六)

10:00-11:00


 观看方式 


PaperWeekly视频号

PaperWeekly B站直播间


一键预约直播



 报告介绍 



大语言模型(LLMs)在许多任务中展现了强大能力,但同时也带来了“越狱”问题,即恶意指令可操控模型产生不良行为。虽然已有多种防护措施被提出,但大多数仅限于英语场景。 


本次 talk 将探讨 LLMs 在多语言环境中的越狱问题,揭示两类风险:无意风险与有意攻击。无意风险指用户在使用非英语提示时,意外绕过安全机制;有意攻击则是恶意用户通过结合多语言提示与恶意指令,故意攻击模型。


实验表明,在无意风险下,低资源语言的有害内容概率是高资源语言的三倍。此外,低资源语言也可作为攻击大模型输出的有效工具。为应对此类挑战,我们提出了 Self-Defence框架,通过自动生成多语言数据进行安全微调。实验结果显示,该方法有效减少了不安全内容的生成。



 嘉宾介绍 


邓岳

新加坡南洋理工大学博士生

邓岳,新加坡南洋理工大学在读博士生,其导师是Sinno Jialin Pan教授。他的研究重点是大模型的安全性问题,例如针对大模型的“越狱”攻击和对检索器的攻击。他的相关研究成果已在顶级国际会议ICLR上发表。目前,他专注于大模型安全的深入攻防研究,致力于为大模型的安全落地提供更加全面的探索与保障。




技术交流群

扫码备注「LLM安全」

立刻加入技术交流群


一键预约直播



?


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

·


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大语言模型 多语言环境 越狱挑战 Self-Defence框架 模型安全
相关文章