Datawhale 5小时前
刚刚,中国队重夺全球IMO奥数冠军!AI集体落榜后,OpenAI神秘模型获金牌
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

2025年第66届国际数学奥林匹克竞赛(IMO)成绩公布,中国队以团体第一、全员金牌的优异成绩收官。其中,邓乐言和张恒烨两位选手更是取得了满分42分的佳绩。中国队选手展现了卓越的数学天赋和坚韧的毅力,他们的成功不仅是中国数学教育的胜利,也为年轻一代树立了榜样。此次竞赛的奖牌线均创历史新高,凸显了比赛的难度和参赛者的整体高水平。同时,文章还探讨了大模型在IMO竞赛中的表现,尽管顶尖模型也面临挑战,但OpenAI推出的通用推理模型在IMO中取得突破性进展,展现了AI在复杂问题解决领域的巨大潜力。

🥇 **中国队闪耀IMO 2025**:中国队在第66届国际数学奥林匹克竞赛中表现卓越,荣获团体总分第一,并且六位参赛选手全部斩获金牌。邓乐言和张恒烨两位选手更是以满分42分的成绩领跑,其他选手也均取得高分,彰显了中国在数学领域的强大实力和深厚底蕴。

🌟 **优秀选手深度解析**:文章详细介绍了中国队的明星选手,如上海中学的邓乐言,他年仅高一就展现出“新韦神”的潜力,曾获阿里数赛铜奖;巴蜀中学的张恒烨,从小受堂哥启发,对数学充满热爱,并在北大旁听课程。他们的成长经历和学习方法,为追求数学卓越的年轻人提供了宝贵的经验和启示。

📊 **AI挑战数学高峰**:文章对比分析了大模型在IMO真题上的表现,指出即使是顶尖模型如Gemini 2.5 Pro也未能达到铜牌水平,普遍存在逻辑跳跃和细节处理不足的问题。这表明,尽管AI在某些方面进步显著,但在需要深度创造性思维和严谨逻辑证明的数学竞赛领域,仍有巨大的提升空间。

🚀 **OpenAI通用推理模型实现突破**:令人瞩目的是,OpenAI推出的一款全新“通用推理模型”成功在IMO 2025中夺得金牌,获得35/42的高分,解决了5道难题。这一成就标志着AI在解决复杂、需要长时思考和创造性推理的问题上取得了历史性突破,预示着AI在数学及其他高难度认知任务领域将迎来新的发展篇章。

2025-07-19 21:53 浙江

 Datawhale推荐 

2025 国际数学奥林匹克竞赛(文末有真题)

内容来源:新智元

就在刚刚,2025第66届IMO国际数学奥林匹克竞赛成绩公布。

中国队获得了团体第一,全员金牌!

来自中国队的6位同学,均取得了优异成绩。

来自上海中学的邓乐言和巴蜀中学的张恒烨,均获得了满分42分的好成绩。

其余四人也同样取得了高分。来自武汉经开外国语高中的谈弘毅获得40分,同样来自武汉经开外国语高中的徐祺铭和来自武昌实验中学的邓哲文获得36分,来自杭州学军中学的董震镇宇获得35分。

美国队紧随其后,以216分排名第二。

美国队的六人中,有五人获得了金牌,这五人分别是Qiao Zhang、Alexander Wang、Andrew Lin、Ruilin Wang、Karn Chutinan和Hannah Fox。

其中,Qiao Zhang来自加州Simi Valley,七年级入围USAJMO ,是拉马努金精神奖学金获得者,于2024年获RMM金牌。曾于2024年及2025年两度参加IMO,获得两枚金牌。

Alexander Wang来自Millburn High School,于2023年获RMM金牌。2023年至今共3次参加IMO,获得三枚金牌。

排名第三的是韩国队,团体总分203分。

日本队和波兰队都取得了196分的团体总分,并列第四。

再往后,分别是以色列、印度、新加坡等国家和地区。

据悉,因为在选题和评分标准上存在的瑕疵,本届IMO不少选手的得分都集中在35分和28分,使得奖牌线的划分过程产生了一些困难。

最终,本届IMO的金牌线被划为35分,银牌线被划为28分,铜牌线被划为19分,均为历史最高值。

最后颁发出的金牌数为67枚,银牌数为103枚,铜牌数为145枚。

中国队选手介绍

邓乐言,上海中学

来自上海中学的邓乐言,此前已经小有名气。他高一就拿到了CMO满分,被誉为「新韦神」。

他还有一个名号,人称「上海言哥」。

言哥今年还是上海中学的高一年级学生,唯一以低年级身份入选,也是本届国家队最年轻的成员。

从小,邓乐言就展现出了自己的数学天赋,绝大多数学生闻之变色的大部头数学著作,他都乐在其中。

而邓乐言的父母,在他很小的时候就发掘了他的数学天赋。他们注重言传身教,培养他的良好习惯、自律品质和不轻言放弃的韧劲。

在2024年11月举行的第40届中国数学奥林匹克竞赛(CMO)中,他以满分成绩入选国家集训队。在第二阶段国家集训队16进6的激烈竞争中,邓乐言作为唯一的高一年级选手脱颖而出,直接打破了上海近十年IMO选拔的年龄纪录。

2025年3月30日,第66届IMO中国数学奥林匹克国家集训队集训活动在广东实验中学荔湾校区闭幕,前排左六为邓乐言

2024年的阿里巴巴全球数学竞赛中,还是上海市民办华育中学初三学生的邓乐言,就在组合与概率赛道获得全球第5名(铜奖)。他也是阿里数赛自开办以来,首位获得奖牌的中学生。

当时就有人说,「言神现在的数学水平,或许已经超过了高一时的韦东奕韦神」。

不过,邓乐言在高中数学联赛中,也并非一开始就获得了最高分。

邓乐言的班主任表示,「作为他的老师,我亲眼见证了他四年的勤学苦练和坚持不懈。」

「了解到邓乐言的数学特长后,给了他独立的时间,在一些非中考科目的时间段和自修时间段,会让邓乐言单独去图书馆自修,并适当减免日常的一些作业,给他专注于数学竞赛的时间和空间。」

邓乐言与数学家丘成桐先生合影

张恒烨,巴蜀中学

张恒烨今年是巴蜀中学高二学生。

在2023年中国数学奥林匹克竞赛中,他便获得过金牌,并入选国家集训队。24年阿里全球数赛中,他也获得优秀奖。

张恒烨表示,自己从小就很喜欢数学,而比自己大八岁的堂哥,就是自己最好的数学启蒙老师。

还在读小学时,已经就读高中、正在学奥数的堂哥,就时常给他讲国内外数学家的故事。看着堂哥解答出难题后欣喜的样子,他就开始埋下了兴趣的种子。

巴蜀中学从初中阶段,便开始筛选数学天赋突出的学生,通过「竞赛班+常规班」的双轨制,实现早期定向培养。

因此就读巴蜀中学后,张恒烨就进入了数学兴趣班,并在进入高中后开始崭露头角。在23年的全国中学生数学奥赛上,他只获得了全球60名,但这只是个开始。

24年9月,通过中国数学奥赛入选国家集训队的张恒烨来到北大,旁听了韦神《调和分析》这门课。在课上,大神级的数学思维和解题方法,让他受益匪浅。

同时,那段时间里,他还如海绵吸水一般,在北大数学系的各个教室中蹭课。学术大咖们的思想,让他对数学的理解又更深了一步。

IMO2025中国国家队选拔颁奖仪式,左二为张恒烨

张恒烨与主教练合影

谈弘毅,武汉经开外国语高中

谈弘毅是高二学生,就读于武汉经开外国语高级中学的「强基计划人才」培养基地班。

在2024年第40届全国中学生数学奥林匹克竞赛决赛中,谈弘毅成功入选了国家集训队,并因此获得了清华北大的保送资格。

徐祺铭,武汉经开外国语高中

和谈弘毅一样,徐祺铭同样来自武汉经开的强基班。

他也同样入选了国家集训队。另外,因为在北京大学2025年数学英才班选拔测试中表现突出,他还成功入选了北京大学2025年数学英才班。

中国数学奥林匹克国家队领队肖梁,蹭对徐祺铭给予了高度评价:「在第二阶段的选拔中,难题很多,需要学生有强大的攻坚能力和良好的心理素质。徐祺铭在难题的处理上表现优异,他展现出了超越同龄人的沉稳和智慧。」  

在2024年7月20日,在第65届IMO中,当时还是高一学生的徐祺铭就以世界第五名的优异成绩勇夺国际金牌。

徐祺铭同学自小就展现出极高的数学天赋。

班主任胡海东老师感慨说:「徐祺铭同学对数学的热爱超乎常人,那种专注和执着让人动容。每次看到他沉浸在数学的世界里,我就知道他一定会在这条路上有所建树。

邓哲文  武昌实验中学

在去年的第65届IMO中,还是武昌实验中学的高一学生邓哲文就为中国队斩获了一枚金牌。

非常巧合的是,邓哲文和徐祺铭、谈弘毅来自同一所初中——湖北华宜寄宿学校。

他的主教练介绍说,邓哲文学习数学的天赋很高,在竞赛学习过程中,表现出了纯粹的热爱和执着的钻研精神。

从小学开始,他就自学了中学数学的全部知识,进入高中后,更是如饥似渴地学习数学竞赛内容,广泛阅读数学著作,自学大学数学课程。

董震镇宇,杭州学军中学

杭州学军中学的董镇宇是高三学生。

而早在高一,他就入选了国家集训队,保送到了清华姚班。

在数学竞赛圈内,董镇宇也是扬名已久,获得江湖美誉「董一哥」,是公认的数学奇才。

才在幼儿园大班时,他就与数学结缘了,在妈妈的引导下开始接触到小学数学教材。

小学时,董镇宇就读于杭州市崇文实验学校,当时就开始广泛地接触奥数知识,并包揽了许多奥数竞赛奖项。

初中时,董镇宇进入到了杭州学军中学教育集团文渊实验学校,他的数学天赋很快被发现,得到了专业数学竞赛教练团队的培养。

高中时,他线上参加了2023年第49届俄罗斯数学奥林匹克,是唯一一个满分金牌选手

第49届俄罗斯数学奥林匹克获奖名单

大模型来做IMO真题,铜牌都拿不到

那么大模型来做IMO真题,结果会怎么样呢?

现在,各模型的分数已经在MathArena上发布。

怎么说呢,所有大模型都翻车了。

即使得分最高的冠军Gemini,也只拿到了31%的分数。凭这个成绩,连拿铜牌都拿不到。

这次的测评,为了防止「开卷作弊」这个问题,评测团队特意选了一个巧妙的时间:题目刚刚发布,他们就开始让AI们答题了,所以这些大模型不太可能在数据集中提前见过这些数学题。

可以说,这些基准测试是既未受污染,又是可解释的。

而AI们的所有答案,都是由两位奥数专家评委双盲评分的,标准的严苛程度堪比IMO官方。每道题满分7分。

此次的参赛选手,阵容也是空前豪华,堪称是AI界的梦之队。

· o3(OpenAI扛把子) 

· o4-mini(OpenAI小钢炮) 

· Gemini 2.5 Pro(谷歌第一大将) 

· Grok-4(马斯克家的理工男) 

· DeepSeek-R1(国产尖子生)

之所以选择这五位参赛选手,是因为它们此前都在MathArena中有出色的表现。

其中,每个模型都使用推荐的超参数运行,并且设置了64000的最大token限制。

Prompt如下——

你的任务是为以下问题写出一个证明解决方案。你的证明将由人工评委根据准确性、全面性和清晰性进行评分。在撰写证明时,请遵循以下指南: 

-你正在撰写一份证明,而不是证明大纲。每一步都应该仔细解释并记录。如果解释不充分,评委将认为你无法解释清楚,从而降低你的分数。 

-你可以使用通用的定理和引理,但前提是它们必须是众所周知的。一个简单的判断标准是:如果该结果有名称,并且足够有名以至于有维基百科页面或类似的内容对其进行描述,则允许使用。任何来自论文的结果,如果它不会在高中或本科低年级数学课程中教授,则不应使用。任何此类结果的使用将立即导致你的成绩为零。 

-在你的证明中不要跳过计算步骤。清楚地解释做了哪些变换,以及为什么在计算的每一步中这些变换是被允许的。 

-你应该使用正确的LaTeX符号来编写公式和数学符号。你应当将这些公式包含在适当的符号中(行内公式使用 "\\(" 和 "\\)",块状公式使用 "\\[" 和 "\\]"),以增强证明的清晰度。不要使用任何Unicode字符。 

-你的证明应该是自包含的。 

-如果你对某个具体步骤不确定,或者不知道如何证明一个中间结果,请明确说明。指出你的不确定性比做出错误的陈述或主张要好得多。

为了公平,项目组这次采取了一种「best of 32」的策略。

也就是,每道题都会跑出32个不同答案,然后让AI自己当裁判,通过一轮轮PK选出最强解法后,才会送去给人类评审打分。这样,模型在推理时,就会尽可能多地扩展计算资源。

因此,这次比赛可以说不仅是卷得离谱,烧钱也烧得令人心疼——

比如,Grok-4的单题评测成本就高达20美元,所以24题的总成本,就超过了480刀!

所以,大模型们的表现如何?

金银铜,全军覆没

Gemini 2.5 Pro,全场最高分

Gemini 2.5 Pro在满分42分的考卷中,拿到了13分,约等于31%。

这个分数,连铜牌的门槛都没摸到。

而即使是作为表现最好的AI,Gemini也依然有不少毛病。

比如,遇到不会做的题时,它会编出一些看起来似乎很权威的假定理,比如「根据史密斯-约翰逊超平方引理可得」。

但实际上,这个定理根本就不存在!

此前Gemini 2.5 Pro的答题情况

Grok-4:翻车最严重

而最近因为AI女友事件大出风头的Grok-4,则严重翻车了。

它的表现堪称灾难:它给出的绝大多数答案只有最终结果,完全不解释,整个就是一副「我懒得证明,我就是知道」的摆烂态度。

而显著落后的一个选手除了Grok-4,还有DeepSeek-R1。

这两个AI在此次奥数中的成绩,相较于它们在MathArena基准测试中的早期成绩,退步明显。

此前Grok 3 mini的答题情况

AI解题的独特姿势:做不出来,我就跳过

在这个过程中,研究者们还发现了AI做数学题的一个有趣现象。

通常,在人类选手参加IMO比赛时,他们要么一题全部做对,要么干脆拿0分,拿3分、4分这样的中等分数,其实是很少见的。

不过大模型可就完全不一样了,它们特别擅长考个「及格边缘线」。

也就是说,它们时常能捕捉到正确的解题思路,方向是对的,但是一到最关键的地方就会掉链子,逻辑跳跃严重。

尤其是到了该证明的关键一步,它们就不证明了。而这恰恰是人类选手最不容易出错的地方。

对此,评审组的感受是:AI现在已经能抓住「人类感」的思路,但是在细节能力上,还是差点火候。

而如果AI们能把这些逻辑问题给搞定,未来它们的成绩说不定还真能冲上领奖台。

此前DeepSeek-R1的答题情况

OpenAI神秘新模型,拿下IMO金牌

然而,就在刚刚,OpenAI 投下了一枚重磅炸弹——他们用一款全新的「通用推理模型」,成功夺下了IMO 2025的金牌!

6道题,解出5道,狂揽35分!

要知道,此前表现最好的Gemini 2.5 Pro,也只得了13分。

Alexander Wei和他的团队,让模型在与人类完全相同的条件下进行比赛:

两个4.5小时的考试时段,没有工具,没有网络,仅凭对题目的理解,用自然语言写下完整的证明过程。

然后,由三位前IMO奖牌得主严格评分。

最终,模型以35/42的惊人高分,达到了金牌的水平。

相比之下,无论是在围棋、Dota还是其他复杂任务,过去的AI想要获得胜利,往往都要在特定领域进行专门的训练。

但这一次,OpenAI打破了这条铁律——新模型不仅不是IMO「特供」,而且还能进行长达数小时的思考。

相比之下,我们熟知的o1模型是以秒计算,Deep Research也不过是以分钟计算。

这种深度的、持久的创造性思维能力,正是以往AI难以逾越的天堑!

这意味着什么?是否达到了AGI水平?拿下IMO有何特殊?

首先,与以往的基准相比,IMO问题需要更高水平的持续创造性思维。

在推理时间范围方面,现在已经一路攀升:GSM8K(顶级人类约需0.1分钟)→MATH基准(约1分钟)→AIME(约10分钟)→IMO(约100分钟)。

其次,IMO的提交内容是难以验证的多页证明。

在此领域取得进展需要超越具有明确、可验证奖励的强化学习范式。

通过这样做,OpenAI研究团队获得了一个能够在人类数学家层面构建复杂且无懈可击论点的模型。

此外该模型并非通过在「特定任务(IMO)」训练达到这一能力水平,而是在通用强化学习和测试时计算扩展方面实现了新的突破。

所以,昨晚被曝光的o3-alpha,难道只是前戏?

原来,这才是OpenAI真正憋着的大招!

完整解题过程

如果你有兴趣,可以看看OpenAI新鲜放出的2025年IMO赛题解答。

模型解出了第一题到第五题(P1-P5),但没能解出第六题(P6)。果然如传闻所说,这次的第六题难度极高,全球仅有6人破解。

仓库地址:https://github.com/aw31/openai-imo-2025-proofs/blob/main/README.md

下面我们来看看,这个新模型对于前五道题的具体解题过程。

第一题,是一道解析几何题。

可以看出,解答这道题的关键点,就是要找出覆盖点的n条线,以及阳光线的可能数量。

模型采用了独特的方法,确定了所有满足条件的非负整数k。

引理:当n≥4时,任何覆盖P_n的n条直线必须使用三角形的一条边。

对n=3的情况进行精确分析。

对于一般的n≥3,证明对于每个n存在k=0、1、3的配置。

利用归约引理完成主要结论的证明。

上下滑动查看

第二道题,是一道平面几何题。

示意图如下。

大神网友放出的解答中,想要直接证明过点H且平行于AP的直线与三角形BER的外接圆相切,是很困难的。

不过,这个问题可以换成另一种表述:定义X为不包含B的一侧的EF的中点,如果能够证明HX与EF平行,基本上就可以证明这个结论了。

另一方面,如果这条线的切线,那么它必须在中点处接触圆。

因此,只要证明这两点就足够了。

而模型在证明过程中,主要完成了以下四步:

解析设定和参数。 设P为三角形ACD的外心。 连接AP与两个圆Ω、Γ的交点分别为点E、F。 求过点B、E、F的外接圆方程。

上下滑动查看

第三道题,是一道函数题。

在人类选手的解法中,这道题的关键是证明下图中黄色的不等式。

模型对于这道题的解法,分为以下四步。

考虑bonza类型的函数,即满足性质P_f的函数。

当函数在某个素数处取值大于1时,考虑模素数意义下的同余关系。

推论:如果某个奇素数p满足f>1,那么整个函数f必须是恒等函数。

进入主要的结构性引理:分析在非恒等函数的情况下,函数的结构。

上下滑动查看

第四道题,是一道数论问题。

它的解题关键步骤可以化为如下形式。

模型在解答过程中,也采用了类似思路。

上下滑动查看

第五道题,考察的是博弈论。

这道题的解法,包含以下三部分。

模型在解题过程中,则是讨论了以下三种情况。

当 λ ≥ c(无防御)时,Alice总是获胜。 

当 λ > c 时,Alice获胜。 

当 λ < c(c = 1/√2)时,Bazza获胜。

上下滑动查看

第六道题,涉及到了图形的组合数学。

这道公认的难题,人类参赛者也只有6人可以做出,o3、o4-mini、Gemini 2.5 Pro、Grok-4、DeepSeek-R1六个大模型也全员零分,即使是OpenAI的这个超强模型,也同样折戟了。

目前看来,世界上还不存在能解出第六题的大模型。

参考资料:

https://www.imo-official.org/organizers.aspx

https://x.com/alexwei_/status/1946477742855532918


一起“三连

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

国际数学奥林匹克竞赛 IMO 中国队 人工智能 大模型 数学竞赛 OpenAI
相关文章