OpenAI Day2：支持微调o1, 核心技术竟更早来自字节跳动！「强化微调」技术分析

原创海野 2024-12-07 06:06 北京

OpenAI Day2的直播含金量被低估了。

夕小瑶科技说原创
作者 | 海野

OpenAI第二天直播日程：

一句话总结，你可以快速、低成本地微调o1了。

好多人觉得没意思，奥特曼也没在场，但是对于科研领域和专业领域的研究者相当有价值！

因为这意味着，可以把你的数据和o1牛逼的推理能力结合起来，让你快速拥有某个领域的o1模型。

具体就是，通过 「强化微调」 实现。

直播嘉宾还是3男1女的组合，三位是OpenAI的研究员Mark Chen、John Allard、Julie Wang，还有伯克利实验室计算生物学家Justin Reese。

直播中特意强调，这不是普通的微调，是强化微调。

奥特曼更是赞扬这是2024年最大惊喜之一。

这次发布的主题虽然和普通人没什么关系，但是给领域垂直模型、小型化模型等开辟巨大的想象空间。

在现有模型基础上，花费有限算力和数据做增强改进，训练出一个更强的模型。

未来很快，就会出现各个领域的o1模型。

前有OpenAI已经搞定一个强基模型，加上一些高质量的推理问题数据集（不需要正确的推理过程，只要有正确的答案就行），任何人都可以通过Reinforcement Learning Fine-tuning，在现有强大的推理模型基础上训练出推理能力更强的模型。

或者，蒸馏出一个更紧凑的小模型，有了领域私有数据和业务逻辑复杂的推理数据集，训出表现更好领域模型。

介绍中是这样说的：

强化微调（Reinforcement Fine-Tuning，简称ReFT），是一种全新(区别于之前的监督微调)的模型定制技术，允许开发者通过数十到数千个高质量任务的数据集，对模型进行针对性优化，并根据提供的参考答案对模型的响应进行评分，使AI在特定领域的复杂任务中表现得更为精准。

经常关注OpenAI的小伙伴可能知道，OpenAI去年初支持对GPT模型的微调，仅是监督式微调（Supervised Fine-Tuning，简称SFT）。

与SFT相比，强化微调不仅是教模型记住数据并进行模仿，而是教模型在特定领域进行推理。

强化微调只需要少量的数据（官方说法：as little as a few dozen examples，少到几十个示例）即可适应任意专业领域。

在官方直播演示里，他们设置了一个实验：在给定症状列表的情况下，用模型预测可能导致罕见遗传疾病的基因，并让模型解释为什么选这些基因。

实验人员使用三种模型进行对比：o1 mini、o1满血版、o1 mini强化微调版。

对于o1 mini强化微调版，实验人员汇集了大约1100个病例报告作为训练和验证的数据集，在使用训练数据集对模型进行训练后，上传验证数据集对模型推理能力进行反复测试和调整，同时保证验证数据集和训练数据集之间的正确基因没有重叠，以防模型作弊。

评估结果时，实验人员设置了三项指标：

第一项，模型一次答对的概率；

第二项，模型前五次预测中有正确答案的概率；

第三项，模型预测中有正确答案的概率。

结果如下图所示，o1 mini的强化微调版，甚至战胜了昨天刚发布的o1。

ReFT概念更早来自字节

Reinforcement learning fine-tuning，简称为ReFT，它结合了监督微调（SFT）和强化学习（RL）的方法，通过引入多条推理路径的学习，对这些路径与正确答案的匹配程度进行自动评估，从而优化模型生成高质量解答的能力。

而且，这个技术路线，更早竟然是字节跳动提出发出的，论文还发布在今年ACL 24上。

字节跳动在ACL 2024顶会上发表的ReFT论文是：

REFT: Reasoning with REinforced Fine-Tuning

研究内容为，通过监督微调（SFT）和强化学习RL（PPO算法）结合，来提高大语言模型在解决数学问题方面的推理能力。

ReFT 由两个阶段组成：预热（Warm-up）阶段和强化学习RL阶段。首先使用 SFT 对模型进行预热，然后采用在线强化学习（在该工作中具体是 PPO 算法）进行优化。

预热阶段（Warm-up）

Warm-up是ReFT的初始步骤，其目的是为模型提供一个基础，使其能够生成对数学问题的基本正确响应。这个阶段使用监督式微调SFT实现：

这一阶段使用包含“Question”和“思维链CoT”元组的数据集：(x, e)。模型在这些“Question-CoT”对上进行微调，通常持续1-2个epoch。这个过程将模型的预测能力调整到能够生成适当的响应。

RL阶段

在预热阶段之后，模型进入强化学习阶段，这个阶段使用PPO（Proximal Policy Optimization）算法来进一步提升模型的性能。

这一阶段使用包含“Question”和“Answer”元组（x，y）组成的数据集。

具体来说，模型通过反复生成多种可能的CoT推理路径，还有一个评估器，专门评估响应的答案正确性，生成reward信号反馈。正确答案会给予正奖励，错误答案则不给予奖励。

这个过程，类似于AlphaZero在围棋领域的自对弈(self-play)学习。

从结果上看，ReFT在所有数据集上都显示出比SFT更好的性能，特别是在CodeLLAMA模型上，ReFT在GSM8K数据集上的准确率比SFT提高了近10个百分点。

论文地址：https://arxiv.org/pdf/2401.08967

o1的发布和强化微调证明了，给定优质推理数据集，通过RL可以确定性提高模型的推理能力。

在RL路线下，垂直领域的应用开发者和研究者，不用再头疼业务性能的问题了，可以做的事情更多了。

可以通过Reinforcement Learning Fine-tuning的方式，结合领域数据和领域经验（私域场景里独有业务逻辑、工作流程、专家经验等），去训练一个垂直领域的模型，提升AI在特定领域的推理能力，这样以来，就大大加速了AI在各个应用场景落地的速度。

对开发者和企业来说，这样做的好处不言而喻：

提升了AI模型性能的同时，也加深了业务的护城河。

总结

在今晚直播开始前，已经有网友在网上放出了一些预告：今天OpenAI是面向开发者的一天。

结果，今天的新预告确实足够振奋人心。

不过目前OpenAI只开放了alpha测试，公开使用要等2025年春季了。

测试申请入口：https://openai.com/form/rft-research-program/

另外，Altman又放出了一个新的信号……

参考资料：

https://openai.com/12-days/
https://x.com/sama/status/1865096914359980048
https://mp.weixin.qq.com/s/NI6cHRSz4ETp-haY4SgfmA

跳转微信打开

ReFT概念更早来自字节

预热阶段（Warm-up）

RL阶段

总结

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签