夕小瑶科技说 2024年12月07日
OpenAI Day2:支持微调o1, 核心技术竟更早来自字节跳动!「强化微调」技术分析
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI推出强化微调技术(ReFT),允许开发者用少量高质量数据集对模型进行针对性优化,提升AI在特定领域的复杂任务中的表现.该技术结合了监督微调(SFT)和强化学习(RL),通过引入多条推理路径的学习,优化模型生成高质量解答的能力.实验证明,经过强化微调的o1 mini模型甚至战胜了o1满血版,展现出巨大潜力.

🚀OpenAI推出全新模型定制技术——强化微调(ReFT),区别于监督微调(SFT),它不仅教模型模仿,更注重在特定领域进行推理.

📈ReFT结合了SFT和RL,通过引入多条推理路径的学习,并根据与正确答案的匹配程度进行自动评估,从而优化模型生成高质量解答的能力.

💡ReFT只需少量数据(几十个示例)即可适应任意专业领域.在官方演示中,使用约1100个病例报告训练的o1 mini强化微调版,在罕见遗传疾病基因预测任务上,甚至战胜了o1满血版.

🔬ReFT技术更早由字节跳动提出,并在ACL 2024上发表论文.其核心是通过SFT进行预热,然后采用PPO算法进行强化学习,通过自对弈方式提升模型推理能力.

✨ReFT的发布为垂直领域应用开发者和研究者提供了新思路,他们可以结合领域数据和经验训练垂直模型,加速AI在各场景落地,提升模型性能的同时也加深了业务护城河.

原创 海野 2024-12-07 06:06 北京

OpenAI Day2的直播含金量被低估了。

夕小瑶科技说 原创
作者 | 海野

OpenAI第二天直播日程:

一句话总结,你可以快速、低成本地微调o1了

好多人觉得没意思,奥特曼也没在场,但是对于科研领域和专业领域的研究者相当有价值!

因为这意味着,可以把你的数据和o1牛逼的推理能力结合起来,让你快速拥有某个领域的o1模型。

具体就是,通过 「强化微调」 实现。

直播嘉宾还是3男1女的组合,三位是OpenAI的研究员Mark Chen、John Allard、Julie Wang,还有伯克利实验室计算生物学家Justin Reese。

直播中特意强调,这不是普通的微调,是强化微调。

奥特曼更是赞扬这是2024年最大惊喜之一。

这次发布的主题虽然和普通人没什么关系,但是给领域垂直模型、小型化模型等开辟巨大的想象空间。

在现有模型基础上,花费有限算力和数据做增强改进,训练出一个更强的模型。

未来很快,就会出现各个领域的o1模型。

前有OpenAI已经搞定一个强基模型,加上一些高质量的推理问题数据集(不需要正确的推理过程,只要有正确的答案就行),任何人都可以通过Reinforcement Learning Fine-tuning,在现有强大的推理模型基础上训练出推理能力更强的模型。

或者,蒸馏出一个更紧凑的小模型,有了领域私有数据和业务逻辑复杂的推理数据集,训出表现更好领域模型。

介绍中是这样说的:

强化微调(Reinforcement Fine-Tuning,简称ReFT),是一种全新(区别于之前的监督微调)的模型定制技术,允许开发者通过数十到数千个高质量任务的数据集,对模型进行针对性优化,并根据提供的参考答案对模型的响应进行评分,使AI在特定领域的复杂任务中表现得更为精准。

经常关注OpenAI的小伙伴可能知道,OpenAI去年初支持对GPT模型的微调,仅是监督式微调(Supervised Fine-Tuning,简称SFT)。

与SFT相比,强化微调不仅是教模型记住数据并进行模仿,而是教模型在特定领域进行推理。

强化微调只需要少量的数据(官方说法:as little as a few dozen examples,少到几十个示例)即可适应任意专业领域。

在官方直播演示里,他们设置了一个实验:在给定症状列表的情况下,用模型预测可能导致罕见遗传疾病的基因,并让模型解释为什么选这些基因。

实验人员使用三种模型进行对比:o1 mini、o1满血版、o1 mini强化微调版。

对于o1 mini强化微调版,实验人员汇集了大约1100个病例报告作为训练和验证的数据集,在使用训练数据集对模型进行训练后,上传验证数据集对模型推理能力进行反复测试和调整,同时保证验证数据集和训练数据集之间的正确基因没有重叠,以防模型作弊。

评估结果时,实验人员设置了三项指标:

第一项,模型一次答对的概率;

第二项,模型前五次预测中有正确答案的概率;

第三项,模型预测中有正确答案的概率。

结果如下图所示,o1 mini的强化微调版,甚至战胜了昨天刚发布的o1。

ReFT概念更早来自字节

Reinforcement learning fine-tuning,简称为ReFT,它结合了监督微调(SFT)和强化学习(RL)的方法,通过引入多条推理路径的学习,对这些路径与正确答案的匹配程度进行自动评估,从而优化模型生成高质量解答的能力。

而且,这个技术路线,更早竟然是字节跳动提出发出的,论文还发布在今年ACL 24上。

字节跳动在ACL 2024顶会上发表的ReFT论文是:

REFT: Reasoning with REinforced Fine-Tuning

研究内容为,通过监督微调(SFT)和强化学习RL(PPO算法)结合,来提高大语言模型在解决数学问题方面的推理能力。

ReFT 由两个阶段组成:预热(Warm-up)阶段和强化学习RL阶段。首先使用 SFT 对模型进行预热,然后采用在线强化学习(在该工作中具体是 PPO 算法)进行优化。

预热阶段(Warm-up)

Warm-up是ReFT的初始步骤,其目的是为模型提供一个基础,使其能够生成对数学问题的基本正确响应。这个阶段使用监督式微调SFT实现:

这一阶段使用包含“Question”和“思维链CoT”元组的数据集:(x, e)。模型在这些“Question-CoT”对上进行微调,通常持续1-2个epoch。这个过程将模型的预测能力调整到能够生成适当的响应。

RL阶段

在预热阶段之后,模型进入强化学习阶段,这个阶段使用PPO(Proximal Policy Optimization)算法来进一步提升模型的性能。

这一阶段使用包含“Question”和“Answer”元组(x,y)组成的数据集。

具体来说,模型通过反复生成多种可能的CoT推理路径,还有一个评估器,专门评估响应的答案正确性,生成reward信号反馈。正确答案会给予正奖励,错误答案则不给予奖励。

这个过程,类似于AlphaZero在围棋领域的自对弈(self-play)学习。

从结果上看,ReFT在所有数据集上都显示出比SFT更好的性能,特别是在CodeLLAMA模型上,ReFT在GSM8K数据集上的准确率比SFT提高了近10个百分点。

论文地址:https://arxiv.org/pdf/2401.08967

o1的发布和强化微调证明了,给定优质推理数据集,通过RL可以确定性提高模型的推理能力。

在RL路线下,垂直领域的应用开发者和研究者,不用再头疼业务性能的问题了,可以做的事情更多了。

可以通过Reinforcement Learning Fine-tuning的方式,结合领域数据和领域经验(私域场景里独有业务逻辑、工作流程、专家经验等),去训练一个垂直领域的模型,提升AI在特定领域的推理能力,这样以来,就大大加速了AI在各个应用场景落地的速度。

对开发者和企业来说,这样做的好处不言而喻:

提升了AI模型性能的同时,也加深了业务的护城河。

总结

在今晚直播开始前,已经有网友在网上放出了一些预告:今天OpenAI是面向开发者的一天。

结果,今天的新预告确实足够振奋人心。

不过目前OpenAI只开放了alpha测试,公开使用要等2025年春季了。

测试申请入口:https://openai.com/form/rft-research-program/

另外,Altman又放出了一个新的信号……

参考资料:

https://openai.com/12-days/
https://x.com/sama/status/1865096914359980048
https://mp.weixin.qq.com/s/NI6cHRSz4ETp-haY4SgfmA



跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

强化微调 OpenAI 人工智能 深度学习 模型优化
相关文章