36氪 - 科技频道 2024年12月07日
OpenAI 推出“强化微调”计划,让创建专家大模型更简单了 | 最前线
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 近日发布了名为“强化微调”的新方案,预计将于 2025 年正式推出。该方案是一种全新的模型定制方法,通过在特定领域的小规模数据集上进一步训练预训练好的通用模型,使其适应特定任务。强化微调可以将大型语言模型从“高中水平”提升至“博士级专家”的能力,适合高校、研究人员和企业打造独特的 AI 解决方案。OpenAI 正在与汤森路透合作,打造专属于该公司的法律专业模型,并展示了一个典型的案例——罕见遗传病研究。强化微调与传统微调不同,它通过训练模型在特定领域中学会推理,找到正确答案,在数据量有限的情况下也能实现显著性能提升。

🚀OpenAI 发布了新的模型定制方法——强化微调(Reinforcement Fine-Tuning),该方案将一个预训练好的通用模型,通过在特定领域的小规模数据集上进一步训练,使其适应特定任务,能够将大型语言模型从“高中水平”提升至“博士级专家”的能力。

🩺OpenAI 展示了一个罕见遗传病研究的案例,使用强化微调训练 GPT o1 Mini 模型,该模型学会了有效推理罕见疾病的成因,并在性能上超越了更大的 GPT o1 模型,展示了其在诊断和理解复杂病情方面的潜力。

🔄强化微调与传统微调不同,它不是简单地让模型“记住答案”,而是通过训练模型在特定领域中学会推理,找到正确答案。强化微调有两个不同数据集合,一个是微调数据集,一个是测试数据集合,模型先基于微调数据集合去训练,然后用测试数据集合验证,反复自我推理训练验证,最终达到很高的水平。

📈强化微调可以在数据量有限的情况下(有时仅需几十个样本)也能实现显著性能提升,这对于数据稀缺的领域尤其重要。

🤝OpenAI 计划在 2025 年全面推出强化微调方案,目前正邀请研究机构、大学以及企业参与强化微调研究计划,希望与愿意共享数据集的组织合作,进一步优化模型性能。

文 | 王方玉

编辑 | 苏建勋

12月7日北京时间凌晨两点,OpenAI公司带来了连续12天发布会的第二场直播。

本次直播中,OpenAI带来了新的方案——强化微调(Reinforcement Fine-Tuning)。该方案和功能预计将于2025年正式推出。

强化微调是一种全新的模型定制方法,它将一个预训练好的通用模型,通过在特定领域的小规模数据集上进一步训练,使其适应特定任务的技术。简单来说就是在一个“学过很多东西”的大模型上,再让它针对某个具体任务“重点练习”,让它更适合做这件事。

OpenAI 高管介绍称,强化微调可以将大型语言模型从“高中水平”提升至“博士级专家”的能力,适合高校、研究人员和企业打造独特的 AI 解决方案。例如OpenAI正在与汤森路透合作,打造专属于该公司的法律专业模型。

没有参与本场直播的OpenAI CEO Sam Altman在社交媒体表上:“效果一级棒,是我2024年最大的惊喜,期待看到人们构建什么!”

“强化微调让行业专家大模型的实现变得容易了。”一位AI大模型应用企业的创始人告诉36氪,这是一项和普通用户关联不大,但对专业领域工作者很有价值的新方案。

直播现场,OpenAI展示了一个典型的案例——罕见遗传病研究。

OpenAI 与伯克利实验室和德国 Charité 医院的研究人员合作,使用强化微调训练GPT o1 Mini 模型。该模型学会了有效推理罕见疾病的成因,并在性能上超越了更大的GPT o1模型,展示了其在诊断和理解复杂病情方面的潜力。

值得一提的是,强化微调与此前的微调方式有着显著差异。与传统微调不同,强化微调并不是简单地让模型“记住答案”,而是通过训练模型在特定领域中学会推理,找到正确答案。

具体来说,强化微调有两个不同数据集合,一个是微调数据集,一个是测试数据集合,模型先基于微调数据集合去训练,然后用测试数据集合验证,反复自我推理训练验证,最终达到很高的水平。因而强化微调可以实现在数据量有限的情况下(有时仅需几十个样本)也能实现显著性能提升。

不过,强化微调方案目前仍处于研究预览阶段,OpenAI计划在2025年全面推出。

目前OpenAI正邀请研究机构、大学以及企业参与强化微调研究计划。OpenAI希望与愿意共享数据集的组织合作,进一步优化模型性能。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 强化微调 人工智能 模型定制 深度学习
相关文章