PaperWeekly 2024年12月06日
直播预告 | 上海人工智能实验室:大语言模型安全评测与内生安全
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期直播将探讨大语言模型的安全评测与内生安全。介绍安全基准相关问题及研究成果,还将探讨提升AI模型安全性的技术路线及团队在‘内生安全’技术路线上的探索。直播时间为2024年12月7日20:00 - 21:00。

🎯大语言模型安全基准相关问题,如SALAD-BENCH及T2ISafety

💪探讨提升AI模型安全性的技术路线,如RLHF和DPO等

🌟介绍团队在‘内生安全’技术路线上的探索成果

和你一起进步的 2024-12-06 12:39 北京

快来预约开播提醒吧~





 AI安全说 第10期 


嘉宾在线解读✔️

在线实时Q&A✔️


 直播主题 


大语言模型安全评测与内生安全


 直播嘉宾 


李力骏

上海人工智能实验室青年研究员


刘东瑞

上海人工智能实验室青年研究员


 直播时间 


2024年12月7日(周六)

20:00-21:00


 观看方式 


PaperWeekly视频号

PaperWeekly B站直播间


一键预约直播




 报告介绍 


01

大语言模型安全基准

随着大型模型能力的日益增强,随之而来的安全风险也在不断上升,包括毒性、隐私泄露、公平性等方面的风险。


本次讲座将探讨大型模型安全基准相关的问题,介绍我们团队在该领域的研究成果。具体内容包括针对大语言模型的安全基准 SALAD-BENCH 及其评测模型,以及针对扩散模型的安全基准 T2ISafety。通过全面评估大模型的安全性,我们能够在实际应用前更好地识别潜在风险和问题,从而进行相应的改进。



02

大语言模型内生安全

为了应对和降低 AI 潜在风险,目前业界提升 AI 模型安全性的技术路线是获取或模拟人类价值偏好的数据对模型进行“安全对齐”, 例如 RLHF 和 DPO 等技术。然而这类方法未能真正解决 AI 风险,一方面是因为对安全对齐方法的底层机理认识不深刻,另一方面是 RLHF 等方法仅教导 AI 模型拒绝回答敏感问题,并没有从模型内部删除敏感知识。


本次报告将探讨团队在“内生安全”技术路线上的探索和最新研究成果。具体内容包括分析大语言模型安全能力的建模过程、内在神经元的冲突、表征的可靠性以及自身漏洞检查。



 嘉宾介绍 


刘东瑞

上海人工智能实验室青年研究员

刘东瑞,上海人工智能实验室可信安全中心青年研究员,博士毕业于上海交通大学。长期从事安全可信人工智能研究,包括大模型的可解释性、攻防、对齐和评测等。在 NeurIPs、CVPR、AAAI、ACL、T-ITS、TCSVT 等会议期刊上发表论文数十篇。曾获得 CVPR 2024 最佳论文候选奖和上海交通大学优秀博士毕业生等荣誉。


李力骏

上海人工智能实验室青年研究员

李力骏,上海人工智能实验室可信安全中心青年研究员,研究方向为大模型安全与评测、对抗攻击等,相关工作发表在 ICML, ICCV, ACL 等会议上。目前,他的研究兴趣集中于大模型安全评测与防御,包括图像、文本上的模型安全及其评测,为大模型系统的安全提供更加可靠的评测与保障。



技术交流群

扫码备注「LLM安全」

立刻加入技术交流群


一键预约直播


?


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

·


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大语言模型 安全评测 内生安全
相关文章