2025-07-19 21:53 浙江
Datawhale推荐
2025 国际数学奥林匹克竞赛(文末有真题)
Datawhale推荐
2025 国际数学奥林匹克竞赛(文末有真题)
🥇 **中国队闪耀IMO 2025**:中国队在第66届国际数学奥林匹克竞赛中表现卓越,荣获团体总分第一,并且六位参赛选手全部斩获金牌。邓乐言和张恒烨两位选手更是以满分42分的成绩领跑,其他选手也均取得高分,彰显了中国在数学领域的强大实力和深厚底蕴。
🌟 **优秀选手深度解析**:文章详细介绍了中国队的明星选手,如上海中学的邓乐言,他年仅高一就展现出“新韦神”的潜力,曾获阿里数赛铜奖;巴蜀中学的张恒烨,从小受堂哥启发,对数学充满热爱,并在北大旁听课程。他们的成长经历和学习方法,为追求数学卓越的年轻人提供了宝贵的经验和启示。
📊 **AI挑战数学高峰**:文章对比分析了大模型在IMO真题上的表现,指出即使是顶尖模型如Gemini 2.5 Pro也未能达到铜牌水平,普遍存在逻辑跳跃和细节处理不足的问题。这表明,尽管AI在某些方面进步显著,但在需要深度创造性思维和严谨逻辑证明的数学竞赛领域,仍有巨大的提升空间。
🚀 **OpenAI通用推理模型实现突破**:令人瞩目的是,OpenAI推出的一款全新“通用推理模型”成功在IMO 2025中夺得金牌,获得35/42的高分,解决了5道难题。这一成就标志着AI在解决复杂、需要长时思考和创造性推理的问题上取得了历史性突破,预示着AI在数学及其他高难度认知任务领域将迎来新的发展篇章。
2025-07-19 21:53 浙江
Datawhale推荐
2025 国际数学奥林匹克竞赛(文末有真题)
就在刚刚,2025第66届IMO国际数学奥林匹克竞赛成绩公布。中国队获得了团体第一,全员金牌!来自中国队的6位同学,均取得了优异成绩。来自上海中学的邓乐言和巴蜀中学的张恒烨,均获得了满分42分的好成绩。其余四人也同样取得了高分。来自武汉经开外国语高中的谈弘毅获得40分,同样来自武汉经开外国语高中的徐祺铭和来自武昌实验中学的邓哲文获得36分,来自杭州学军中学的董震镇宇获得35分。美国队紧随其后,以216分排名第二。美国队的六人中,有五人获得了金牌,这五人分别是Qiao Zhang、Alexander Wang、Andrew Lin、Ruilin Wang、Karn Chutinan和Hannah Fox。其中,Qiao Zhang来自加州Simi Valley,七年级入围USAJMO ,是拉马努金精神奖学金获得者,于2024年获RMM金牌。曾于2024年及2025年两度参加IMO,获得两枚金牌。Alexander Wang来自Millburn High School,于2023年获RMM金牌。2023年至今共3次参加IMO,获得三枚金牌。排名第三的是韩国队,团体总分203分。日本队和波兰队都取得了196分的团体总分,并列第四。再往后,分别是以色列、印度、新加坡等国家和地区。据悉,因为在选题和评分标准上存在的瑕疵,本届IMO不少选手的得分都集中在35分和28分,使得奖牌线的划分过程产生了一些困难。最终,本届IMO的金牌线被划为35分,银牌线被划为28分,铜牌线被划为19分,均为历史最高值。最后颁发出的金牌数为67枚,银牌数为103枚,铜牌数为145枚。内容来源:新智元
中国队选手介绍
大模型来做IMO真题,铜牌都拿不到
那么大模型来做IMO真题,结果会怎么样呢?
现在,各模型的分数已经在MathArena上发布。
怎么说呢,所有大模型都翻车了。
即使得分最高的冠军Gemini,也只拿到了31%的分数。凭这个成绩,连拿铜牌都拿不到。
这次的测评,为了防止「开卷作弊」这个问题,评测团队特意选了一个巧妙的时间:题目刚刚发布,他们就开始让AI们答题了,所以这些大模型不太可能在数据集中提前见过这些数学题。
可以说,这些基准测试是既未受污染,又是可解释的。
而AI们的所有答案,都是由两位奥数专家评委双盲评分的,标准的严苛程度堪比IMO官方。每道题满分7分。
此次的参赛选手,阵容也是空前豪华,堪称是AI界的梦之队。
· o3(OpenAI扛把子)
· o4-mini(OpenAI小钢炮)
· Gemini 2.5 Pro(谷歌第一大将)
· Grok-4(马斯克家的理工男)
· DeepSeek-R1(国产尖子生)
之所以选择这五位参赛选手,是因为它们此前都在MathArena中有出色的表现。
其中,每个模型都使用推荐的超参数运行,并且设置了64000的最大token限制。
Prompt如下——
你的任务是为以下问题写出一个证明解决方案。你的证明将由人工评委根据准确性、全面性和清晰性进行评分。在撰写证明时,请遵循以下指南:
-你正在撰写一份证明,而不是证明大纲。每一步都应该仔细解释并记录。如果解释不充分,评委将认为你无法解释清楚,从而降低你的分数。
-你可以使用通用的定理和引理,但前提是它们必须是众所周知的。一个简单的判断标准是:如果该结果有名称,并且足够有名以至于有维基百科页面或类似的内容对其进行描述,则允许使用。任何来自论文的结果,如果它不会在高中或本科低年级数学课程中教授,则不应使用。任何此类结果的使用将立即导致你的成绩为零。
-在你的证明中不要跳过计算步骤。清楚地解释做了哪些变换,以及为什么在计算的每一步中这些变换是被允许的。
-你应该使用正确的LaTeX符号来编写公式和数学符号。你应当将这些公式包含在适当的符号中(行内公式使用 "\\(" 和 "\\)",块状公式使用 "\\[" 和 "\\]"),以增强证明的清晰度。不要使用任何Unicode字符。
-你的证明应该是自包含的。
-如果你对某个具体步骤不确定,或者不知道如何证明一个中间结果,请明确说明。指出你的不确定性比做出错误的陈述或主张要好得多。
为了公平,项目组这次采取了一种「best of 32」的策略。
也就是,每道题都会跑出32个不同答案,然后让AI自己当裁判,通过一轮轮PK选出最强解法后,才会送去给人类评审打分。这样,模型在推理时,就会尽可能多地扩展计算资源。
因此,这次比赛可以说不仅是卷得离谱,烧钱也烧得令人心疼——
比如,Grok-4的单题评测成本就高达20美元,所以24题的总成本,就超过了480刀!
所以,大模型们的表现如何?
金银铜,全军覆没
Gemini 2.5 Pro,全场最高分
Gemini 2.5 Pro在满分42分的考卷中,拿到了13分,约等于31%。
这个分数,连铜牌的门槛都没摸到。
而即使是作为表现最好的AI,Gemini也依然有不少毛病。
比如,遇到不会做的题时,它会编出一些看起来似乎很权威的假定理,比如「根据史密斯-约翰逊超平方引理可得」。
但实际上,这个定理根本就不存在!
此前Gemini 2.5 Pro的答题情况
Grok-4:翻车最严重
而最近因为AI女友事件大出风头的Grok-4,则严重翻车了。
它的表现堪称灾难:它给出的绝大多数答案只有最终结果,完全不解释,整个就是一副「我懒得证明,我就是知道」的摆烂态度。
而显著落后的一个选手除了Grok-4,还有DeepSeek-R1。
这两个AI在此次奥数中的成绩,相较于它们在MathArena基准测试中的早期成绩,退步明显。
此前Grok 3 mini的答题情况
AI解题的独特姿势:做不出来,我就跳过
在这个过程中,研究者们还发现了AI做数学题的一个有趣现象。
通常,在人类选手参加IMO比赛时,他们要么一题全部做对,要么干脆拿0分,拿3分、4分这样的中等分数,其实是很少见的。
不过大模型可就完全不一样了,它们特别擅长考个「及格边缘线」。
也就是说,它们时常能捕捉到正确的解题思路,方向是对的,但是一到最关键的地方就会掉链子,逻辑跳跃严重。
尤其是到了该证明的关键一步,它们就不证明了。而这恰恰是人类选手最不容易出错的地方。
对此,评审组的感受是:AI现在已经能抓住「人类感」的思路,但是在细节能力上,还是差点火候。
而如果AI们能把这些逻辑问题给搞定,未来它们的成绩说不定还真能冲上领奖台。
此前DeepSeek-R1的答题情况
OpenAI神秘新模型,拿下IMO金牌
完整解题过程
如果你有兴趣,可以看看OpenAI新鲜放出的2025年IMO赛题解答。模型解出了第一题到第五题(P1-P5),但没能解出第六题(P6)。果然如传闻所说,这次的第六题难度极高,全球仅有6人破解。仓库地址:https://github.com/aw31/openai-imo-2025-proofs/blob/main/README.md下面我们来看看,这个新模型对于前五道题的具体解题过程。第一题,是一道解析几何题。可以看出,解答这道题的关键点,就是要找出覆盖点的n条线,以及阳光线的可能数量。模型采用了独特的方法,确定了所有满足条件的非负整数k。参考资料:
https://www.imo-official.org/organizers.aspx
https://x.com/alexwei_/status/1946477742855532918
一起“点赞”三连↓
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑