OpenAI 新货详解：强化微调

赛博禅心 2024年12月07日

OpenAI 新货详解：强化微调

文章介绍了强化微调技术，用于o1期货，使大模型在专业领域发挥作用。如让GPT-4成为懂特定领域的模型，微调后的o1 mini在领域任务上更有效且便宜。还提到了蒸馏方法及声音相关内容，今日是Gemini周年庆。

强化微调是微调的强化版，用于o1期货，使大模型在专业领域发挥作用

微调可给GPT-4等灌输特定知识，强化微调后的o1 mini效果更好且价格便宜

蒸馏是让强模型帮生成问答，用这些数据训练不那么聪明的模型

提到声音相关内容及Gemini周年庆

原创金色传说大聪明 2024-12-07 05:05 广东

看我手势

3,2,1 - 上链接！

今日发布

强化微调

顾名思义，微调的强化版

和微调不同

用于 o1期货

让大模型在专业领域发挥作用

我们会对它「微调」

比如给 GPT-4 灌输特定知识

让其成为：很懂篮球的 GPT-4

或者成为：很懂唱跳的 GPT-4

但，这是给常规模型的

o1 不是常规模型

更偏向于 Agent

不会直接输出结果

而是先进行推理

再对推理进行总结

这时

普通微调就不行了

得强化微调

Reinforcement Fine-Tuning

RFT

效果

经过微调的 o1 mini

在领域任务上

比原始版的 o1 满血

更有效（并且便宜很多）

评价

期货，25年发布

申请早用

https://openai.com/form/rft-research-program/

然后你会收到

相关名词

微调

找一个看着不错的模型

比如 GPT-4

通过特定接口

给它一些专业数据

格式类似

问："你擅长唱、跳、Rap 还有什么"答："篮球"

之后再问

就可以获得不错效果

问："唱首歌吧"答："〜(￣▽￣〜)  鸡你太美～"

这种做法

叫做微调

图释如下

蒸馏

如果你懒得写问答

也可以让 AI 帮你写

找一个很贵，但很强的模型

叫「爱我giegie」

帮你生成很多问答

比如

问："练习时长多久了？"答："两年半"
问："为什么打篮球？"答："只因太美"...

拿这些数据

训练一个不那么聪明的模型

它也能成功出道

这种方法，叫做蒸馏

图示如下

以及...

仔细看图

声音相关（尚未发布）

来自谷歌

今天是 Gemini 周年庆

Gemini-exp-1206 发布

战回榜首

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

强化微调 o1期货蒸馏 Gemini周年庆

相关文章

将慢思考蒸馏进快思考，Meta 把 Llama2 跃升至 GPT-4 水平

Optimizing Artificial Intelligence Performance by Distilling System 2 Reasoning into Efficient System 1 Responses

大模型相关的产品化路径思考｜奇绩大模型笔记 #3

微軟AI主管談AI趨勢：大小模型將「齊頭並進」，「規模法則」遠沒有到極限

NeurIPS 2024｜单步生成：让扩散模型实现高速无损的内容生成

OpenAI发布强化微调却被马斯克的xAI、Meta抢走风头

OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理 Altman称为今年最大惊喜

OpenAI 活动第二弹：“强化微调”打造领域专家 AI 模型，阿尔特曼称其为今年最大惊喜

刚刚，OpenAI又发布了一个“期货”

OpenAI狂飙突进：仅12个例子就能打造专属AI专家核心技术竟来自字节？