虎嗅 11小时前
OpenAI“截胡”IMO金牌,奥特曼为GPT-5献上“核弹级”预热
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI的全新通用推理模型在国际数学奥林匹克竞赛(IMO)中斩获金牌,引发广泛关注。该模型并非为特定竞赛设计,而是采用了全新的实验性通用技术,使其在复杂、长篇证明的数学任务上表现出色,突破了传统强化学习的局限。此举被视为通往通用人工智能(AGI)的重要一步,并可能为即将发布的GPT-5铺平道路。然而,数学家陶哲轩提醒,在缺乏统一测试标准的情况下,AI的数学能力评估应保持谨慎,竞赛形式的改变会对结果产生显著影响。

✨ OpenAI的通用推理模型在IMO竞赛中取得金牌,展示了其在处理复杂数学证明方面的强大能力。该模型并非专门为竞赛优化,而是运用了全新的实验性通用技术,在验证困难的任务上表现优异,显示了AI在需要持续创造性思维的领域取得的显著进展。

🚀 此项突破被认为是通往通用人工智能(AGI)的关键一步。OpenAI首席执行官萨姆·奥特曼强调,这是一个LLM在做数学题,而非特定形式化数学系统,预示着AI在理解和解决复杂问题方面能力的大幅提升,也可能为备受期待的GPT-5发布进行预热。

🤔 数学界权威陶哲轩对AI竞赛成绩报告的严谨性提出质疑,指出在缺乏预先公开的测试方法和统一测试标准的情况下,AI数学能力的评估存在不确定性。他用类比说明,改变竞赛形式(如增加时间、允许工具使用、团队协作等)会显著影响结果,因此直接对比不同AI模型的IMO表现缺乏可比性。

💡 OpenAI此次行动被解读为一项策略性举措,旨在利用IMO金牌的成功为即将发布的GPT-5造势。尽管奥特曼对GPT-5的即时能力持谨慎态度,称其为实验性模型,但此次事件无疑为OpenAI及其未来AI产品积累了市场关注度和技术声望。

谁曾想,OpenAI又抢尽了谷歌的风头!

爆料称,谷歌DeepMind的AI模型早在本周五,也就是两天前,便拿下了IMO金牌。

但由于内部审核慢,需等下周一市场部批准后,DeepMind才能官宣具体情况。

OpenAI瞅中了时机,用全新通用推理模型在IMO刷题后,立即公开了结果。

昨天,全网几乎都被OpenAI拿下IMO金牌刷屏了。自家研究员纷纷现身,宣传OpenAI神秘模型的强大。

如今看来,这一切都是有预谋的。

谷歌DeepMind研究员Archit Sharma调侃道,“恭喜!居然比我们先官宣了——现在P6是新标杆了吗”?

一、OpenAI抢夺IMO金牌,GPT-5即将诞生

为什么通用推理模型拿下IMO金牌,会受到热烈关注?

简而言之,OpenAI这次的通用推理模型在“通用强化学习和测试时计算扩展方面开辟了新天地”。

这次的通用推理模型有啥不同之处?

OpenAI推理研究员Noam Brown指出,这个模型并非专门为国际数学奥林匹克竞赛设计。

它是一个融合了全新实验性通用技术的推理LLM,这使其在难以验证的任务上表现得更好。

IMO问题正是这一挑战的完美体现:证明过程长达数页,专家需要花费数小时来评分。

相比之下,AIME的答案只是一个0到999之间的整数。

与过去的基准相比,IMO问题需要更高层次的持续创造性思维。

这次的通用推理模型,在推理时间跨度上实现了逐步进步:从GSM8K→ MATH基准→ AIME→ IMO。

“重要的是,它的思考效率也更高。而且在测试时的计算能力和效率方面还有很大的提升空间。”

其次,IMO的参赛作品是难以验证的多页证明。

在这方面的进展需要超越明确、可验证奖励的强化学习范式。

通过这样做,就可以获得一个能够像人类数学家一样构建复杂且无懈可击论证的模型。

这项成果到底意味着什么?

Noam Brown给出了答案:

可能是因为这次的IMO事件,奥特曼也出来公开发声。

他称,OpenAI拿下IMO金牌这事,需要强调的是,“这是一个LLM在做数学题,而不是一个特定的形式化数学系统。这是朝着AGI迈进的主要部分。”

奥特曼之所以这么“积极主动”,其实也可能是在为GPT-5的发布提前铺路。

当下这个节点对OpenAI来说非常重要,令人期待的GPT-5即将面世。

他们估计想在这个重要节点上,利用OpenAI拿下IMO金牌这事,为GPT-5来波神助攻。

但奥特曼也稍显谨慎,调低了各位对GPT-5的预期。

他指出,GPT-5是一个实验性模型,用了一些将在未来模型中会使用的新研究技术。

“在数月内,不会发布具备IMO金牌水平能力的模型。”

二、陶哲轩点评IMO

针对IMO金牌得主背后的争议,数学大佬陶哲轩也公开表达了自己的看法。

“不会评论任何未预先公开测试方法的AI竞赛成绩报告。”

陶哲轩简明扼要地表示,在缺乏受控测试环境的情况下,AI的数学能力难以准确评估。

他指出,很多人对AI有个误解,就是把它的能力看成是“行”或“不行”两个极端。

但实际上,它的能力是一个巨大的范围。你给它提供的计算资源的多少、给它的指令有多好,以及你要求它如何输出结果,这些都会导致最终的效果有天壤之别。

以人类竞赛为例,在刚结束的IMO竞赛中,各国派出六名高中生选手组成的团队。

在两天赛程中,每位选手每天用四个半小时独立解答三道难题,仅限纸笔演算。

期间选手之间严禁交流,仅可向监考者询问题目表述问题。领队仅在评分环节向评审委员会申诉,不直接参与解题。

大家都知道,IMO被视为衡量中学生数学能力的金标准:金牌线今年被定为35/42分,完整解出一题即可获得“荣誉提名”。

但若改变竞赛形式,难度将发生剧变!

考虑一下,如果我们以其他方式改变奥林匹克竞赛的形式,其难度水平会发生什么变化?

比如,给学生几天时间来完成每道题,而不是三个题目只给四个半小时。

在考试开始前,团队负责人会将问题改写成学生更容易理解的格式。

学生可以无限使用计算器、计算机代数软件包、形式化证明助手、教科书或上网搜索。

领队让六人团队同时处理同一个问题,相互交流各自的部分进展和遇到的死胡同。

在此期间,队长会引导学生采用更有利的方法,并在某个学生花费过多时间在他们知道不太可能成功的方向时进行干预。

提交阶段,每位队员提交解答,但队长只选出“最佳”解答递交竞赛,其余的都弃之不用。

如果团队中的学生都未能获得令人满意的解决方案,团队负责人将不会提交任何解决方案,并且会悄然退出比赛,而他们的参与也永远不会被记录。 

在这些情境下,答案仍“技术性”地源自学生之手。

这也说明,竞赛形式的改变能使原本铜牌线下的团队跃升至金牌水平。

“这警示我们,在缺乏统一测试标准的情况下,贸然对比不同AI模型的IMO表现如同比较苹果与橙子,没有对比意义可言,”陶哲轩指出。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI IMO GPT-5 通用推理模型 AGI
相关文章