IT之家 2024年12月25日
“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI研究人员提出“深思熟虑的对齐”新方法,旨在提升AI模型的安全性。该方法直接教授模型安全规范,并训练模型在生成响应前推理这些准则,将安全原则融入推理过程。它分为两个阶段:首先,通过监督微调训练模型参考并推理安全规范;其次,利用强化学习进一步完善模型的推理。与依赖人工标注数据的方法不同,该方法使用模型生成的数据和思维链推理,降低了安全训练的资源需求。OpenAI的o1模型已部署该技术,在抵抗越狱提示和减少误拒方面表现出色。

🛡️“深思熟虑的对齐”方法旨在解决现有AI模型对齐技术,如监督微调和强化学习的局限性,这些技术可能被操纵,产生有害内容或难以处理复杂情况。

🧠该方法的核心在于让模型在生成响应前,先进行安全规范的推理,而非间接推断,从而使模型能够明确理解并应用安全原则。具体分为两个阶段:监督微调训练模型理解安全规范,强化学习进一步完善模型的推理能力。

💡与传统方法依赖人工标注数据不同,“深思熟虑的对齐”利用模型生成的数据和思维链推理,有效降低了安全训练的资源需求,并且在OpenAI的o1模型上验证了该方法的有效性,显著提升了模型的安全性和可靠性。

IT之家 12 月 25 日消息,OpenAI 的研究人员提出了一种名为“深思熟虑的对齐”(Deliberative Alignment)的新方法,以提升 AI 模型安全性,并已在 o 系列模型中取得显著成效。

项目背景

如何确保大语言模型(LLMs)遵守明确的道德和安全准则,目前存在诸多挑战。监督微调(SFT)和来自人类反馈的强化学习(RLHF)等现有对齐技术都存在局限性,有被操纵的风险,可能会产生有害内容、拒绝合法请求或难以处理不熟悉的场景等问题。

这些问题通常源于当前安全培训的弊端,也就是模型从数据间接推断标准,而非明确地学习,通常缺乏考虑复杂提示的能力,从而限制了它们在微妙或对抗性情况下的有效性。

深思熟虑的对齐(Deliberative Alignment)

IT之家注:该方法直接教授模型安全规范,并训练它们在生成响应之前推理这些准则进,将安全原则融入推理过程中。

整个过程分为两个阶段,第一阶段,监督微调(SFT)训练模型参考并推理安全规范,使用从基础模型生成的数据集。第二阶段,强化学习(RL)使用奖励模型,根据安全基准评估性能,进一步完善模型的推理。

不同于依赖人工标注数据的方法,“深思熟虑的对齐”使用模型生成的数据和思维链(CoT)推理,降低了安全训练的资源需求。

OpenAI 的 o1 模型已部署该技术,在抵抗越狱提示方面表现出色,在 StrongREJECT 基准测试中得分为 0.88,显著高于 GPT-4o 的 0.37;此外该技术还可以减少误拒,在 XSTest 数据集的良性提示中,o1 模型的准确率高达 93%。

“深思熟虑的对齐”通过训练模型明确推理安全策略,它为复杂的伦理挑战提供了可扩展且可解释的解决方案。

参考

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI AI模型安全 深思熟虑的对齐 强化学习 思维链推理
相关文章