PaperWeekly 2024年11月23日
直播预告 | 上海交大 & 北京大学:大语言模型安全与对齐前沿进展
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

PaperWeekly将于11月23日举办AI安全说第9期直播,主题为“大语言模型安全与对齐前沿进展”。直播邀请了上海交通大学博士生任麒冰和北京大学博士生吉嘉铭两位嘉宾,分别围绕大语言模型的安全风险和全模态大模型的高效对齐展开探讨。直播内容包括探索大语言模型安全“护栏”失效的内在机理,分享揭示大语言模型安全“漏洞”的两个攻击工作,以及介绍Align-Anything框架,该框架包含20万全模态人类偏好数据,并设计了基于统一语言反馈的对齐方法,提升全模态模型的指令跟随能力。此外,直播还将介绍Eval-Anything框架,用于评估全模态模型的能力。所有数据、模型和代码框架均已开源,供社区使用。

🤔**大语言模型安全风险与攻击:** 即使应用了安全措施,大语言模型仍可能被攻击者利用,展现有害行为。本次直播将探索大语言模型安全“护栏”失效的内在机理,并分享两个揭示模型安全“漏洞”的攻击工作,帮助理解大语言模型潜在的安全风险。

🚀**全模态大模型高效对齐:** 基于人类反馈的强化学习(RLHF)技术可以提升大语言模型的指令跟随能力,但其在全模态场景下的有效性尚待验证。直播将介绍Align-Anything框架,该框架通过全模态人类偏好数据对齐全模态模型,确保模型行为与人类意图一致,并解决数据缺乏、偏好载体有效性等挑战。

📊**全模态模型能力评估框架Eval-Anything:** 为了系统性地评估全模态模型的能力,特别是模态选择和协同方面,直播将介绍Eval-Anything框架。该框架提供了一个具有挑战性的评估环境,帮助开发者更好地理解和评估全模态模型的性能。

🎁**开源数据、模型和代码框架:** 直播中介绍的所有数据、模型和代码框架均已开源,供研究社区使用,促进大语言模型安全与对齐领域的研究和发展。

和你一起进步的 2024-11-22 23:20 北京

快来预约开播提醒吧~





 AI安全说 第9期 


嘉宾在线解读✔️

在线实时Q&A✔️


 直播主题 


大语言模型安全与对齐前沿进展


 直播嘉宾 


任麒冰

上海交通大学博士生


吉嘉铭

北京大学博士生


 直播时间 


2024年11月23日(周六)

20:00-21:00


 观看方式 


PaperWeekly视频号

PaperWeekly B站直播间


一键预约直播




 报告介绍 


01

大语言模型安全和滥用风险探索

随着大语言模型(LLM)在现实世界的广泛部署和能力提升,开发安全可信的大模型的重要性也日益增加。即使 LLM 开发者应用了多样的安全措施,LLM 仍然可以被攻击者利用,表现出有害行为。


本次主题分为两部分,首先探索 LLM 安全“护栏”失效的内在机理,然后分享揭示 LLM 安全“漏洞”的两个攻击工作。



02

全模态大模型的高效对齐

基于人类反馈的强化学习技术(Reinforcement Learning from Human Feedback, RLHF)能有效提升大语言模型的指令跟随能力,但随着模态数量增加,这类方法是否有效目前尚未可知。为了解决这一问题,我们首次尝试通过全模态人类偏好数据来对齐全模态模型(即输入和输出可为任意模态),以确保其行为与人类意图一致。


然而,这一任务面临诸多挑战。首先,目前缺乏大规模的全模态人类偏好数据,大多数据仅限于特定模态。其次,在复杂的全模态场景中,二元偏序作为偏好载体在Post-training中的有效性尚未被探索。最后,目前缺乏系统化的框架来评估全模态模型的能力,特别是在模态选择与协同方面。 


为此,我们提出了Align-Anything框架,其中包含精心标注的20万全模态人类偏好数据。同时,我们设计了基于统一语言反馈的对齐方法来有效捕获复杂的模态特定的人类偏好,从而增强全模态模型的指令跟随能力。此外,为了评估全模态模型,我们构建了一个具有挑战性的全模态能力评估框架——Eval-Anything。所有数据、模型以及代码框架均已开源,供社区使用。



 嘉宾介绍 


任麒冰

上海交通大学博士生

任麒冰,上海交通大学计算机系三年级博士生,导师为马利庄教授,研究方向为大模型和智能体安全对齐,在 NeurIPS, CVPR, KDD, ICLR 等国际顶级会议上参与发表 CCF-a 类高水平论文 8 篇,22 级吴文俊人工智能荣誉博士班班长,曾获得国家奖学金、上海市奖学金、85 届计算机系教育发展基金暨杨元庆教育基金等奖励。


吉嘉铭

北京大学博士生

吉嘉铭,北京大学人工智能研究院博士生,导师为杨耀东助理教授,研究方向为大模型安全与价值对齐,在计算机顶级会议期刊发表 Oral、Spotlight 等十余篇,谷歌学术引用 1400 余次,其开发的大模型对齐器 Aligner 被接收为 NeurIPS 2024 Oral,获北京大学博士最高研究奖“校长奖学金”,获首批国自然博士青年基金资助(2023 年度北京大学智能学科唯一),项目名称为《带安全约束的大语言模型对齐技术研究》,入选 2024 年度(首届)中国电子学会—Tencent 博士生科研激励计划,获 NeurIPS‘22 机器人灵巧操作比赛冠军。成果被 OpenAI 、Meta、图灵奖获得者 Yoshua Bengio 等引用,被 MIT Tech Review 报道。





技术交流群

扫码备注「LLM安全」

立刻加入技术交流群


一键预约直播


?


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

·


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大语言模型 AI安全 模型对齐 安全风险 全模态
相关文章