IT之家 02月24日
清华大学与瑞莱智慧联合团队推出 RealSafe-R1 大模型,相比 DeepSeek 安全性显著提升
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

清华大学与瑞莱智慧联合团队推出了RealSafe-R1大语言模型,该模型基于DeepSeek R1进行深度优化与后训练,在确保性能稳定的前提下,显著提升了安全性。RealSafe-R1系列大模型在安全性上大幅优于DeepSeek-R1,甚至超越了国际上公认安全性较好的闭源大模型Claude3.5、GPT-4o等。研究团队采用STAIR框架,通过三阶段方法,系统性提升基础模型在复杂安全对齐场景中的表现。实验结果表明,STAIR框架有效提升了大语言模型的安全性,并保持了通用性能。

🛡️RealSafe-R1基于DeepSeek R1进行深度优化与后训练,旨在提升大语言模型的安全性,同时保持其原有的性能优势。

🧠研究团队提出了STAIR框架(SafeTy Alignment with Introspective Reasoning),该框架采用三阶段方法,系统性提升基础模型在复杂安全对齐场景中的表现,增强模型的安全意识和推理能力。

🚀实验结果显示,STAIR框架不仅有效提升了大语言模型的安全性,还在GSM8k、SimpleQA、AdvGLUE、AlpacaEval等通用性能测试中,保持甚至提高了模型的推理能力、事实性和鲁棒性。

IT之家 2 月 24 日消息,经研究发现,DeepSeek R1 在多项指标中表现惊艳,但与其他开源大语言模型相同,抵抗越狱攻击的能力可以进一步提升。

针对这一情况,清华大学与瑞莱智慧联合团队推出大语言模型 RealSafe-R1。该模型基于 DeepSeek R1 进行深度优化与后训练,在确保性能稳定的基础上,实现了安全性的显著提升。RealSafe-R1 各尺寸模型及数据集将于一周后陆续开放下载。

▲ StrongReject 数据集安全性得分

瑞莱智慧方面表示,RealSafe-R1 系列大模型相比 DeepSeek-R1 安全性大幅提升,优于国际上被认为安全性较好的闭源大模型 Claude3.5、GPT-4o 等,为 DeepSeek 生态添砖加瓦。

其中,RealSafe-R1 7B 基于 DeepSeek-R1-Distill-Qwen-7B 后训练得到,RealSafe-R1 32B 基于 DeepSeek-R1-Distill-Qwen-32B 后训练得到。

为了增强模型的安全意识和推理能力,研究团队提出了 STAIR 框架(SafeTy Alignment with Introspective Reasoning),采用三阶段的方法,系统性提升基础模型在复杂的安全对齐场景中表现。

论文实验结果表明,基于 Llama-3.1-8B-Instruct、Qwen-2-7B-Instruct 等基础模型,STAIR 框架有效提升了大语言模型的安全性,并保持了通用性能。

安全方面,STAIR 拒绝恶意问题的能力得到明显增强,不仅在直接询问的情景下能保持安全性,还能通过深入分析提升针对越狱攻击的鲁棒性。

在 StrongReject 数据集上,STAIR 相较基础模型良性分数绝对值提升了 0.47(0.40->0.87),安全性提升一倍有余,显著高于其他基线方法。

通用性方面,STAIR 在 GSM8k、SimpleQA、AdvGLUE、AlpacaEval 等通用性能测试中,依然保持甚至提高了模型的推理能力、事实性和鲁棒性,详细测试数据见论文。

IT之家附论文地址:
https://arxiv.org/pdf/2502.02384v1

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RealSafe-R1 DeepSeek R1 大语言模型 安全性 STAIR框架
相关文章