PaperWeekly 前天 22:17
ICML 2025 | 从“浅对齐”到“深思熟虑”,清华牵头搭起大模型安全的下一级阶梯
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

清华团队提出STAIR框架,通过引入系统2思考,实现大模型安全对齐的重大突破。该框架不再依赖简单的“闭嘴”机制,而是引导模型深入分析风险,实现安全与性能的平衡。研究团队进一步推出了RealSafe-R1模型,在开源DeepSeek-R1模型上验证了STAIR框架的有效性,显著提升了模型安全性,同时保持了其强大的推理能力。

🧠 STAIR框架的核心在于引入系统2思考,而非简单的条件反射式拒答。它通过结构化思维链、安全感知蒙特卡洛树搜索和测试时扩展三个阶段,增强模型对风险的理解和应对能力。

💡 第一阶段,结构化推理对齐通过少量的结构化思维链数据进行有监督微调,使模型初步获得推理能力,并调用GPT-4o对安全和通用问题进行回复生成。

🌳 第二阶段,基于安全感知蒙特卡洛树搜索的自提升,通过安全分数和有用性分数双重维度,优化模型的安全性和通用能力,以细粒度的微调信号不断强化模型的推理能力和安全对齐程度。

🚀 第三阶段,测试时扩展通过训练奖励模型,并指导语言模型进行测试时搜索,进一步提升模型在越狱攻击下的鲁棒性,实现了安全性能的显著提升。

🛡️ RealSafe-R1模型是STAIR框架的实践,在DeepSeek-R1模型上实现了安全对齐,在提升模型安全性的同时,保持了其强大的推理能力,避免了传统方法中常见的性能损失问题。

让你更懂AI的 2025-07-03 22:07 北京

思维安全 ≠ 格式安全!

 

在大语言模型(LLM)加速进入法律、医疗、金融等高风险应用场景的当下,“安全对齐”不再只是一个选项,而是每一位模型开发者与 AI 落地者都必须正面应对的挑战。

然而,如今广泛采用的对齐方式,往往只是模型在检测到风险提示时机械地回复一句“很抱歉,我无法满足你的请求”——这种表面看似“安全”的机制,实则脆弱不堪。

ICLR 2025 杰出论文首次将这类方法命名为 “浅对齐(Shallow Alignment)”[1]:模型的预测分布仅在回复开头做出了有效偏移,却从未真正理解潜在的风险语义

一旦越狱提示换个包装,模型就轻易“破防”;而过度依赖这类简单训练,也往往会牺牲模型在通用任务中的语言能力与响应质量,带来“安全 vs. 能力”的两难局面。


▲ 越狱攻击可以绕过大模型安全护栏[2]

在这一背景下,清华团队突破了这一范式,率先将系统 2 思考引入大模型对齐,提出了融合自省推理的安全对齐框架 STAIR

与其让模型学会“条件反射式的闭嘴”,不如让它真正学会思考之后再开口。STAIR 通过三步走增强了对齐流程,验证了测试时扩展(Test-Time Scaling)对模型安全的贡献。

在不降低通用能力的前提下,STAIR 可以显著提升开源模型在越狱攻击下鲁棒性,在 StrongReject 上超越了以安全著称的 Claude3.5它不止教模型“闭嘴”,而是教模型深入分析风险。它不再是安全与性能的零和博弈,而是将二者在推理下有机统一。

STAIR 的阶梯引领大模型安全对齐从本能拒答走向深度自省,从格式安全迈向思维安全

这篇题为 Improving SafeTAlignment with Introspective Reasoning 的工作刚刚被 ICML 2025 收录为 Oral 论文(录用率~1%)

在 STAIR 的理论实践基础上,研究团队进一步推出了 RealSafe-R1 模型,率先针对开源的 DeepSeek-R1 模型进行安全对齐,可以在不牺牲模型推理能力的前提下大幅提升安全性。

相关代码、训练数据、模型均已开源详细算法和实验细节请参考原始论文。


论文标题:

STAIR: Improving Safety Alignment with Introspective Reasoning

论文地址:

https://arxiv.org/abs/2502.02384

代码地址:

https://github.com/thu-ml/STAIR


论文标题:

RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability

论文地址:

https://arxiv.org/abs/2504.10081

代码地址:

https://huggingface.co/RealSafe

接下来,让我们一起“登梯”...


向安全对齐引入系统2思考

当前安全对齐方法大多基于简短拒答的数据形式训练模型,使模型隐式建立了危险输入到直接拒答的直觉性映射,类似于系统 1 思考(System 1 Thinking)。

研究者们受系统 2 思维(System 2 Thinking)提升模型推理能力的技术路线启发,设计了 STAIR 对齐框架,力求帮助大模型真正理解风险指令,进行系统化的自我思考和风险评估,而不是条件反射式地拒绝回答。




从“本能拒绝”到“理性分析”的三步走

STAIR 框架共包含三个阶段:结构化思维链格式对齐、基于安全感知蒙特卡洛树搜索的自提升、测试时扩展,能够在不具备推理能力的模型上,实现性能与安全的双效提升。



阶段 1:结构化推理对齐

第一阶段通过少量的结构化思维链数据进行有监督微调,使模型初步获得推理能力。研究者设计了一个分步式的输出格式,每一步推理都包括一个总结标题和详细描述,从而帮助模型在应对风险时能够逐步分析问题,并调用GPT-4o对安全和通用问题进行回复生成。

模型在分步的内省深思后再正式输出明确的回答,该回答需要经过风险识别后,作出合理拒绝或给出无害信息。这一阶段的训练也为后续按步骤切分回答,进行树搜索和推理时搜索提供了基础。

阶段 2:基于安全感知蒙特卡洛树搜索的自提升

第二阶段使用蒙特卡洛树搜索的方式构造自采样的 step-level 偏序数据对,并使用 DPO 损失微调模型。研究者以每一个推理步骤/最终回答步骤作为一次动作。

但与传统蒙特卡洛树搜索不同的是,为了同时优化模型的安全性和通用能力,在搜索过程中奖励信号由安全分数和有用性分数两个维度共同提供,即安全感知的蒙特卡洛搜索(Safety-Informed MCTS)。

奖励函数的设计一共包括 3 个条件:安全优先条件,有用性双向条件,以及在仅考虑一个维度时能退化为原始蒙特卡洛搜索的条件。



安全优先条件:安全回复总能获得比不安全回复更高的分数。



有用性双向条件:当回复是安全时,越详细越有用则分数越高;当回复存在风险时,越能帮助解决问题则分数越低。



单一维度退化条件:当只考虑安全性或有用性中的一个维度时,蒙特卡洛搜索的过程退化为使用对应分数的搜索。这可以保证多元评分不影响原有搜索框架的效果。

基于以上条件,研究者通过理论推导,给出了一个满足要求的最简单形式的奖励函数:R(H, S) = S·H + 2S,其中分数由模型进行自我打分。

在经过足够多轮的树搜索后,研究者使用阈值控制策略来采样 step-level 的偏序数据对,来提供细粒度的微调信号。整个采样-微调过程将进行多轮,每一轮使用不同的训练问题,以不断强化模型的推理能力和安全对齐程度。



实验选用了 Llama-3.1-8B-Instruct 和 Qwen-2-7B-Instruct 模型,利用从 PKU-SafeRLHF(安全问答)、JailbreakV(越狱数据)和 UltraFeedback(通用数据)三个主流数据集中采样的问题,对模型进行训练。

在 StrongReject、WildChat 等安全评估和 GSM8k、AlpacaEval 等通用测试上的实验结果显示,经过前两阶段的微调,模型在安全性能上相比训练前获得了显著提升,同时更好平衡了安全性能和通用性能。



 阶段 3:测试时扩展



第三阶段是训练一个奖励模型,并指导语言模型进行测试时搜索。用于训练奖励模型的数据同样采自第二阶段的蒙特卡洛搜索树中,采样 step-level 数据和全程轨迹数据,并通过 Bradley-Terry 模型的优化目标微调过程奖励模型(process reward model)。

后续基于该奖励模型给出的信号进行 Best-of-N 搜索或束搜索,实现锦上添花的效果。在 Llama-3.1-8B 模型上,结合束搜索,在 StrongReject 上达到了 0.94 的分数,显著超过多个主流商用模型,达到了与 Claude-3.5 相当的安全性能。



这意味着推理增强的技术手段也可以在安全对齐上取得可靠的效果。安全与推理的有机统一,可以推动模型真正理解、分析并应对风险,在保障安全的同时保留语言能力与实用性。


RealSafe-R1的安全对齐实践

在 STAIR 的理论基础上,研究团队进一步推出了 RealSafe-R1 模型,针对开源的 DeepSeek-R1 模型进行安全对齐。

通过构建 15,000 条安全感知的推理轨迹,RealSafe-R1 在提升模型安全性的同时,保持了其强大的推理能力,避免了传统方法中常见的性能损失问题 [3]



具体地,研究者通过提示 DeepSeek-R1 在推理过程中注意安全风险,加强安全护栏,提升模型推理过程的安全性。经过一轮的有监督微调,各尺寸推理模型的安全性都得到了大幅提升,同时在数学、代码等推理任务上的表现不受影响,甚至在事实性方面也有一定改进。



随着推理模型成为主流,已有不少工作研究推理模型的安全风险,也使其安全加固成为一个重要研究问题。STAIR 框架提供了一条可行路径来赋能模型的深度安全对齐,以及在安全对齐时更好地维持其通用能力。期待相关领域未来进一步的研究与突破。

参考文献

[1] Safety Alignment Should Be Made More Than Just a Few Tokens Deep

[2] Jailbreaking Black Box Large Language Models in Twenty Queries

[3] Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable


关于作者


本工作共同第一作者包括:

张亦弛,清华大学计算机系三年级博士生,师从朱军教授,研究方向是多模态大模型和大模型安全,在CVPR、NeurIPS、ICML等顶会发表多篇论文,曾主导开发了首个多模态大模型可信度全面评测基准MultiTrust;

张思源,清华大学计算机系一年级硕士生,导师是苏航副研究员,研究方向是大模型安全与对齐算法。

本文通讯作者是清华大学人工智能学院董胤蓬助理教授和计算机系朱军教授。其他合作者来自北航、瑞莱智慧、阿里安全、百川智能等单位。


更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 


如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编


🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 安全对齐 STAIR RealSafe-R1
相关文章