PaperAgent 2024年12月08日
被OpenAI带火的强化微调RFT技术解析~
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 最新推出的强化微调技术(RFT)引发关注。该技术允许使用少量数据(几十到几千个)构建特定复杂任务的专家模型,显著提升模型处理类似问题的推理能力。RFT 分为预热和强化学习两个阶段,通过监督式微调进行预热,然后利用在线强化学习和 PPO 算法进一步微调。实验表明,RFT 在多个数据集上的性能显著优于监督式微调(SFT),为构建更强大的 AI 模型提供了新的途径。

🚀RFT 技术的核心在于它分为两个主要阶段:预热阶段和强化学习阶段。预热阶段使用包含“问题”和“思维链(CoT)”元组的数据集对模型进行微调,使其具备基本的问题解决能力。强化学习阶段则利用在线自我学习方式,通过采样响应、评估答案正确性并在线更新参数来提高模型性能。

💻RFT 采用 PPO 算法进行训练,其中价值模型基于预热阶段后的政策模型的最后隐藏状态构建。奖励函数在终端状态时直接比较从状态的 CoT 提取的答案和真实答案,正确返回 1,否则返回 0,数值型答案还可以应用部分奖励 0.1。总奖励是奖励函数得分和学习到的 RL 政策与初始政策之间的 KL 散度的和。

🔬实验结果表明,RFT 在 GSM8K、MathQA 和 SVAMP 等数据集上的性能显著优于 SFT。例如,微调后的 o1-mini 模型得分提高 80%,反超 o1 正式版,展现了 RFT 技术的强大潜力。

💡RFT 可以通过多数投票和重新排名等策略进一步提升性能,为构建更强大的 AI 模型提供了新的途径。这表明 RFT 不仅在当前表现出色,还具有进一步优化的空间。

2024-12-08 13:18 湖北

OpenAI年终大戏第二场推出了强化微调RFT (Reinforcement Fine-Tuning),它可以让你用几十到几千个的训练数据,为特定的复杂任务构建专家模型,加强了模型如何处理类似问题的推理,微调后的o1-mini得分提高80%,反超o1正式版

强化微调技术的一种实现方式:首先通过监督式微调(Supervised Fine-Tuning)对模型进行预热,然后利用在线强化学习,特别是PPO算法,进一步微调模型。这种方法能够自动采样多种推理路径,并从真实答案中自然派生出奖励信号。

SFT和ReFT在CoT替代方案存在时的比较

强化微调(RFT)的两个主要阶段:预热阶段和强化学习阶段。

    预热阶段(Warm-up)

强化学习阶段(Reinforcement Learning)

GSM8K中的一个问题(x)、思维链(CoT)(e)和答案(y)的示例。SFT过程在训练数据上迭代多个周期。提出的ReFT从SFT预热并在同一数据上执行RL训练。

实验表明,RFT在GSM8K、MathQA和SVAMP等数据集上的性能显著优于SFT,并且可以通过多数投票和重新排名等策略进一步提升性能

ReFT和基线模型在所有数据集上微调后的价值准确度

SFT和ReFT在GSM8K数据集中第1、3和5周期的P-CoT响应对同一个问题的反应。绿色框架内的反应是正确的,而红色框架内的反应是错误的。

https://arxiv.org/pdf/2401.08967Code: https://github.com/lqtrung1998/mwp_ReFT

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 强化微调 RFT 人工智能 深度学习
相关文章