直播预告 | 上海交大 & 北京大学：大语言模型安全与对齐前沿进展

和你一起进步的 2024-11-22 23:20 北京

快来预约开播提醒吧～

AI安全说第9期

嘉宾在线解读✔️

在线实时Q&A✔️

直播主题

大语言模型安全与对齐前沿进展

直播嘉宾

任麒冰

上海交通大学博士生

吉嘉铭

北京大学博士生

直播时间

2024年11月23日（周六）

20:00-21:00

观看方式

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

▼

报告介绍

大语言模型安全和滥用风险探索

随着大语言模型（LLM）在现实世界的广泛部署和能力提升，开发安全可信的大模型的重要性也日益增加。即使 LLM 开发者应用了多样的安全措施，LLM 仍然可以被攻击者利用，表现出有害行为。

本次主题分为两部分，首先探索 LLM 安全“护栏”失效的内在机理，然后分享揭示 LLM 安全“漏洞”的两个攻击工作。

全模态大模型的高效对齐

基于人类反馈的强化学习技术（Reinforcement Learning from Human Feedback, RLHF）能有效提升大语言模型的指令跟随能力，但随着模态数量增加，这类方法是否有效目前尚未可知。为了解决这一问题，我们首次尝试通过全模态人类偏好数据来对齐全模态模型（即输入和输出可为任意模态），以确保其行为与人类意图一致。

然而，这一任务面临诸多挑战。首先，目前缺乏大规模的全模态人类偏好数据，大多数据仅限于特定模态。其次，在复杂的全模态场景中，二元偏序作为偏好载体在Post-training中的有效性尚未被探索。最后，目前缺乏系统化的框架来评估全模态模型的能力，特别是在模态选择与协同方面。

为此，我们提出了Align-Anything框架，其中包含精心标注的20万全模态人类偏好数据。同时，我们设计了基于统一语言反馈的对齐方法来有效捕获复杂的模态特定的人类偏好，从而增强全模态模型的指令跟随能力。此外，为了评估全模态模型，我们构建了一个具有挑战性的全模态能力评估框架——Eval-Anything。所有数据、模型以及代码框架均已开源，供社区使用。

嘉宾介绍

任麒冰

上海交通大学博士生

任麒冰，上海交通大学计算机系三年级博士生，导师为马利庄教授，研究方向为大模型和智能体安全对齐，在 NeurIPS, CVPR, KDD, ICLR 等国际顶级会议上参与发表 CCF-a 类高水平论文 8 篇，22 级吴文俊人工智能荣誉博士班班长，曾获得国家奖学金、上海市奖学金、85 届计算机系教育发展基金暨杨元庆教育基金等奖励。

吉嘉铭

北京大学博士生

吉嘉铭，北京大学人工智能研究院博士生，导师为杨耀东助理教授，研究方向为大模型安全与价值对齐，在计算机顶级会议期刊发表 Oral、Spotlight 等十余篇，谷歌学术引用 1400 余次，其开发的大模型对齐器 Aligner 被接收为 NeurIPS 2024 Oral，获北京大学博士最高研究奖“校长奖学金”，获首批国自然博士青年基金资助（2023 年度北京大学智能学科唯一），项目名称为《带安全约束的大语言模型对齐技术研究》，入选 2024 年度（首届）中国电子学会—Tencent 博士生科研激励计划，获 NeurIPS‘22 机器人灵巧操作比赛冠军。成果被 OpenAI 、Meta、图灵奖获得者 Yoshua Bengio 等引用，被 MIT Tech Review 报道。

技术交流群

扫码备注「LLM安全」

立刻加入技术交流群

一键预约直播

▼

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签