Cnbeta 02月12日
OpenAI发布最新论文:DeepSeek和Kimi发现了o1的秘密
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布研究论文,公开其推理模型在竞技编程中的应用情况。文中展示了三个推理模型的成绩,提到中国公司的新型推理模型利用COT方法提升表现,还表明强化学习训练可显著提升模型性能,解锁新应用体验。

OpenAI发布论文公开推理模型应用情况

o3在IOI 2024中获金牌,在CodeForces表现佳

中国新型推理模型用COT方法提升表现

强化学习训练可显著提升模型性能

在中国AI公司的影响下,OpenAI不得不公开O系列强化学习的秘密。今天(2月12日),OpenAI发布了关于推理模型在竞技编程中应用的研究论文报告《Competitive Programming with Large Reasoning Models》,文中放出了OpenAI三个推理模型:o1、o1-ioi、o3在IOI(国际信息学奥林匹克竞赛)和CodeForces(全球知名在线编程竞赛)中的成绩。

论文显示,在IOI 2024中,o3在严格规则下拿到395.64分,达成金牌成就,并且在CodeForces上的表现与人类精英选手相当。论文中特别提到,中国的DeepSeek-R1和Kimi k1.5通过独立研究显示,利用思维链学习(COT)方法,可显著提升模型在数学解题与编程挑战中的综合表现。R1、k1.5是DeepSeek和Kimi在1月20日同时发布的新型推理模型。

该论文通过强化学习(RL)训练的大型语言模型在复杂编码和推理任务上的性能提升,比较了通用推理模型与针对特定领域优化的系统在竞技编程中的表现。研究结果表明,增加强化学习训练计算和测试时计算可显著提升模型性能,使其接近世界顶尖人类选手,这些模型将在科学、编码、数学等领域的AI应用中解锁新的应用体验。

原论文地址:https://arxiv.org/abs/2502.06807

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 强化学习 推理模型 竞技编程
相关文章