赛博禅心 2024年12月07日
OpenAI 新货详解:强化微调
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章介绍了强化微调技术,用于o1期货,使大模型在专业领域发挥作用。如让GPT-4成为懂特定领域的模型,微调后的o1 mini在领域任务上更有效且便宜。还提到了蒸馏方法及声音相关内容,今日是Gemini周年庆。

强化微调是微调的强化版,用于o1期货,使大模型在专业领域发挥作用

微调可给GPT-4等灌输特定知识,强化微调后的o1 mini效果更好且价格便宜

蒸馏是让强模型帮生成问答,用这些数据训练不那么聪明的模型

提到声音相关内容及Gemini周年庆

原创 金色传说大聪明 2024-12-07 05:05 广东

看我手势

3,2,1 - 上链接!

今日发布

强化微调


顾名思义,微调的强化版


和微调不同

用于 o1期货

让大模型在专业领域发挥作用

我们会对它「微调」


比如给 GPT-4 灌输特定知识

让其成为:很懂篮球的 GPT-4

或者成为:很懂唱跳的 GPT-4


但,这是给常规模型的


o1 不是常规模型

更偏向于 Agent

不会直接输出结果

而是先进行推理

再对推理进行总结


这时

普通微调就不行了

强化微调

Reinforcement Fine-Tuning

RFT



效果

经过微调的 o1 mini

在领域任务上

比原始版的 o1 满血

更有效(并且便宜很多)




评价

期货,25年发布


申请早用

https://openai.com/form/rft-research-program/


然后你会收到


相关名词

微调

找一个看着不错的模型

比如 GPT-4


通过特定接口

给它一些专业数据

格式类似

问:"你擅长唱、跳、Rap 还有什么"答:"篮球"


之后再问

就可以获得不错效果

问:"唱首歌吧"答:"〜( ̄▽ ̄〜)  鸡你太美~"


这种做法

叫做 微调

图释如下

基础模型专业领域数据专业模型


蒸馏

如果你懒得写问答

也可以让 AI 帮你写


找一个很贵,但很强的模型

叫「爱我giegie」

帮你生成很多问答

比如


问:"练习时长多久了?"答:"两年半"
问:"为什么打篮球?"答:"只因太美"...


拿这些数据

训练一个不那么聪明的模型

它也能成功出道


这种方法,叫做 蒸馏

图示如下

教师模型知识流动学生模型


以及...

仔细看图


声音相关(尚未发布)


来自谷歌

今天是 Gemini 周年庆

Gemini-exp-1206 发布

战回榜首




跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

强化微调 o1期货 蒸馏 Gemini周年庆
相关文章