最近,一件大事在科技圈和数学圈炸开了锅。
OpenAI 宣布,他们的人工智能模型,在世界最顶级的数学竞赛(IMO)中,考出了相当于金牌的成绩。
简单来说,就是 AI 学会做数学奥赛题了,而且还是世界冠军水平。
这本该是展示 AI 技术实力的一个高光时刻,没想到,消息一出,庆祝的香槟还没开,全网的口水仗就先打了起来。
一则技术喜报,迅速演变成了一场巨大的争议风波,主要集中在三个问题上:
时机对吗? OpenAI 没有像其他 IMO 要求的 AI 公司一样,在闭幕式结束一周后宣布成绩,是不是在抢这群高中生的风头,失了体面?
金牌真吗? OpenAI 的「神秘模型」参加的比赛不是 IMO 官方邀请的,而评委又是自己请的,这个「金牌」的含金量,到底有多少?
比赛公平吗? 让一个能瞬间调用海量资源的 AI,和苦学十几年的人类孩子在同一个维度下比较,这本身是不是就不公平?
这背后,到底发生了什么?我们一层层来看。
IMO (International Mathematical Olympiad)国际数学奥林匹克竞赛
OpenAI 做了什么,为什么引发了争议
风波的第一个引爆点,是发布时间。
7 月 19 日,OpenAI 研究员 Alex Wei 在 X 平台发文,称其实验性大模型在 IMO 数学竞赛中取得了金牌级别的成绩。
6 道题做对 5 道,得分 35/42,金牌标准是 35 分,银牌标准是 28 分;
模型在不借助外部工具的标准考试环境下完成,无网络,相同的时间限制和仅限一次的提交限制等;
评分标准则是由 3 位前 IMO 金牌得主打分并达成共识,Alex 在自己的 GitHub 上公布了模型的答题文本;
使用的不是即将发布的 GPT-5,而是一个内部未命名的独立实验模型,且在未来几个月之内都不会发布具有这种能力的模型;
上下滑动查看更多内容;此次 IMO 竞赛题目,以及 OpenAI 撰写的使用自然语言、清晰明确的题目答案。
Alex 称这是「AI 推理能力的一次重大跨越」,并强调模型的通用性,即此次使用的模型,没有针对奥数专项训练,它的优异的表现是来自通用的推理能力。他特别提到为什么这件事是个「大事件」:
IMO 问题与过去的基准相比,需要一个新的持续创造性思维水平。在推理时间范围内,我们现在已经从 GSM8K(顶尖人类约 0.1 分钟)→ MATH 基准(约 1 分钟)→ AIME(约 10 分钟)→ IMO(约 100 分钟)。
然而,争议就是从 Alex Wei 这则 OpenAI 在 IMO 拿到金牌级别成绩帖子的「发布时间」开始。
热议帖子,原文链接:https://x.com/Mihonarium/status/1946880931723194389
X 上有人引用曾经 IMO 金牌得主 Joseph Myers 的评论图片发文,
国际数学奥林匹克要求人工智能公司不要抢孩子们的风头,并在闭幕式后一周再公布结果。而 OpenAI 在闭幕式之前就宣布了结果。
IMO 协调员 Joseph Myers 评论截图,内容为与 IMO 相关人员交流时均表示 OpenAI 此次做法不合时宜。
Joseph Myers 在评论中也说,
在IMO 2025年,评审团和协调员普遍认为,AI开发者在IMO比赛前后(例如在闭幕派对之前)宣布与IMO相关的成绩是不合适的。通常,协调员的观点是,相关公告应至少在闭幕典礼后一周发布,因为比赛的重点应放在人类参赛者的成就上,而AI的报告不应分散大家的注意力。
博主还引用了另外一家参与 IMO 测试的数学超级智能 AI 公司Harmonic 的发文,来证实 IMO 的规则。
为了维护学生竞赛的神圣性,IMO 理事会已要求我们和其他参与的主要 AI 公司,直到 7 月 28 日为止暂不发布我们的结果。
这一下,OpenAI 被推上了「不尊重赛事」的风口浪尖。网友指责他们为了抢一个头条,破坏了赛事的仪式感,让那些顶着巨大压力参赛的年轻人的成就黯然失色。
有网友直接评论说,「今年参与真实竞赛的青少年选手,在极高的压力下完成答题、面对真实评审、承担名次荣誉,他们成就理应获得充分尊重,而不应该是被 OpenAI 抢走了风头。」
不过,OpenAI 研究员 Noam Brown 随后澄清,
1. 我们是在闭幕式结束后发布的消息,闭幕式是直播的,可以证明他们的发布时间。2. 他在发帖前提前告知了一位 IMO 组织者,后者请求 OpenAI 等闭幕式结束再发,OpenAI 也确实遵守了这个请求。
尽管如此,「抢跑」、「不体面」的标签还是贴在了 OpenAI 身上。如果说这还只是程序和沟通上的误会,那接下来的争议,则直指这次「金牌」的含金量本身。
谁的舞台?谁的规则?谁说了算?
更大的质疑在于,这块「金牌」是谁认证的?
虽然 Alex Wei 在帖子里面,包括后面 OpenAI 转发的时候,都是小心地称模型达到「金牌水平」(gold medal-level performance),并没有说「获得金牌」或「赢得比赛」,但在社交媒体传播中,还是被简化为「AI 赢得金牌」。
因为 IMO 是有专门邀请相关的 AI 公司参与竞赛,例如前文提到的 Harmonic 等 AI 公司,但是 OpenAI 不在官方邀请参赛的名单之上。
也就是说 OpenAI 并没有正式注册参赛,也没有将结果提交 IMO 评审机构进行评分,而是选择了邀请三位前金牌得主「打分」。
有评论指出,三位前金牌得主并非官方协调员,OpenAI 的测试过程也未公开,只是内部验证,没有像其他 AI 挑战(如前几天与 Psyho 的程序大战)那样接受第三方验证。
说白了,这更像一场内部测试,而非公开挑战。尽管模型可能确实解决了问题,但一套不公开、不透明的流程,让其「金牌级别」的说法显得有些「自卖自夸」。
虽然夹杂着「发布时间抢跑,争夺孩子们的风头」以及「所谓的金牌结果不可信」等争议,还是有不少的网友选择支持 OpenAI,认为这不但无害,反而带来了更多关注。
一位网友说,「OpenAI 的帖让我第一次点进去看今年谁拿了金牌,以前我从不关心。」
也有 AI 工程师表示,「这不是抢了学生风头,而是让大家都对 IMO 更感兴趣。」
陶哲轩:AI 解题成功≠与人类平等
所以 OpenAI 这一波操作,是不是真的「越界」了,光为了秀自己的实力,全然不顾「孩子们」的感受。
陶哲轩在 IMO 闭幕式现场发言
作为此次 IMO 金牌得主颁奖嘉宾的陶哲轩,也在 Mastodon 上发长文。虽然他没有直接谈论此次 OpenAI 的争议,但他分享了自己的观点是,
AI能力存在着极为广泛的差距,差距可能达到几个数量级,这取决于提供的资源和辅助支持,以及如何获得报告结果。
上下滑动查看更多内容;陶哲轩帖子内容及部分评论,原文链接:https://mathstodon.xyz/@tao/114881418225852441
他拿这次的 IMO 竞赛举例,把 AI 取得的成绩类比为选手在时间加速器中答题了多个月,而不是人类标准比赛里面的固定时间,同时 AI 能够允许他们提前重写题目、用无限工具解题、多人协作、丢弃失败样本、只上交最好答案等。
他最后也总结说,与其纠结于分数高低,不如先问一句:比赛规则公平吗?
在没有一个控制测试方法的情况下,应该小心不要将各种 AI 模型在 IMO 等比赛中的表现进行简单的比较,也不应将这些模型与人类选手进行直接对比。我也不会评论任何没有提前披露方法论的自我报告的AI比赛成绩。
六月份,陶哲轩曾在 Lex Fridman 的播客中预测 AI 不会在国际数学奥林匹克竞赛(IMO)中取得高分。他建议研究人员目标定得稍低一些。「有较小规模的比赛,有些比赛的答案是一个数字,而不是长篇证明」。
抛开关于发布时间和评分标准的技术性争论,整场风波的内核,更像是一种集体情绪的真实写照,
我们,或许还未准备好接受这个趋势。
这个趋势就是,眼看着 AI 从围棋棋盘,到编程赛场,如今又兵临城下,来到了代表着最年轻一代智力光芒的 IMO 数学赛场。
我们可以争论评价标准是否统一,可以辩驳 AI 拥有不平等的资源,但这些都无法改变一个最根本的事实。
AI 只会越来越强,我们曾经引以为傲的一座座智力堡垒,正在被它逐一攻破。
OpenAI 这次引发的争议,或许就是人类与 AI 共存时代的一个缩影,
一边是疯狂进化的技术,一边是需要时间调适的人类。
还值得关注的是,就像 Alex Wei 在推文的最后说的一样,他向所有的参赛者表示祝贺,并表示现在 OpenAI 的很多研究员都是来自曾经 IMO 数学竞赛的选手。
而在此次 IMO 竞赛中,中国队选手获得了团体第一,全员金牌!第二名是美国队,其中大部分也是华裔选手。
结合最近硅谷 AI 人才争夺战的华人比例 ,先不说 OpenAI 这个神秘的模型到底行不行,但是我看在数学这方面,我们一定行。
本文来自微信公众号“APPSO”,作者:发现明日产品的APPSO,36氪经授权发布。