谷歌 Gemini 拿下了 IMO 金牌,而且是官方认证的那种。
经过 IMO 官方裁判评分,Gemini 新模型答对了 6 道题中的 5 道,以 35 分的成绩斩获金牌。
斩获金牌的是 Gemini 的一个进阶版本,搭载了新的思考模式,后期会开放给 Google AI Ultra 订阅用户——也就月付 1400 元那种。
去年三天摘银,今年 4.5 小时夺金,DeepMind 的数学成绩可以说是突飞猛进。
除了 DeepMind CEO 哈萨比斯、谷歌 CEO 劈柴哥给团队发来贺电,马斯克也发推表示了祝贺。
DeepMind 这波可谓是被各界夹道祝贺,做得体面又周到。
但 DeepMind 被夸得越好,OpenAI 就越发相形见绌,同样是 AI 参赛 IMO,秘密搞事情也就算了,还为了营销跟人类青少年抢风头。
奥特曼治下的 OpenAI,最近除了丢人就丢人了。
DeepMind 官宣 AI 拿下 IMO 金牌
DeepMind 公告显示,Gemini 新模型做对了今年 IMO 六道题中的五道,获得了 35 分。
并且这一成绩,也获得了 IMO 主席 Gregor Dolinar 的亲自认证:
我们可以确认,谷歌 DeepMind 已达到人们梦寐以求的里程碑,获得了 35 分(满分 42 分)——堪称金牌。
他们的解决方案在很多方面都令人惊叹。IMO 评分员认为这些解决方案清晰、精准,而且大多数都易于理解。
不仅评分遵循 IMO 未公开的规则,所用时间标准也和人类选手完全一致——4.5 小时之内答完交卷。
而去年 DeepMind 的银牌成绩,是用 AlphaProof 和 AlphaGeometry 一起做了三天才获得的。
这次不仅用时更短,答题过程也是全程自然语言、端到端完成,不再像去年那样专门修改题目格式。
DeepMind 高级科学家兼 IMO 团队负责人 Thang Luong 表示,这与去年相比是一个范式转变。
此外,DeepMind 研究员、布朗大学教授 Junehyuk Jung 介绍,在今年的第三题中,很多人类选手使用了研究生水平的方案(IMO 为高中竞赛),但 Gemini 仅使用了初等数论知识就给出了自洽的证明。
Jung 还表示,Gemini 没答对的最后一题,是一开始方向就错了,不过人类选手中做对这道题的也只有五个人。
顺便说一下,谷歌已经将 Gemini 做对的五道题的答案完整公开(链接见文末),有兴趣的话可以验证一下~
这次 DeepMind 用来参赛的,是一款暂未公开的全新模型,搭载了 Deep Think 推理模式。
DeepMind 介绍,Gemini Deep Think 是一种针对复杂问题的增强型推理模式,融合了其最新的一些研究技术,包括并行思维。
这种模式使模型能够同时探索并组合多种可能的解决方案,最终得出最终答案,而不是追求单一的线性思维链。
为了充分利用 Deep Think 的推理能力,DeepMind 额外训练了 Gemini 的这一版本,使其能够利用更多多步推理、问题求解和定理证明数据。
此外 DeepMind 还为 Gemini 提供了精选的高质量数学题库,并在其指令中添加了一些关于如何解答 IMO 题目的通用提示和技巧。
如哈萨比斯所说,该模型已经提供给数学家等人群进行小范围测试,后续会开放给 Google AI Ultra 订阅用户使用。
当然,DeepMind 今天的官宣,也是获得了各种称赞。
DeepMind 宣布成绩,被硅谷夹道欢迎
包括来自友商的称赞在内,DeepMind 获得了整个硅谷的夹道欢迎。
除了开头马斯克那句简单的 Congrats 之外,还有 Meta AI 科学家称赞 Gemini 给出了清晰、精准、非常适合自学的解决方案。
受欢迎的原因,不仅是表现优秀,也包括谷歌对 IMO 规则的尊重。
Gemini 参加挑战是受到了 IMO 官方邀请,所有规则标准都和人类一致。
并且,DeepMind 也遵守了 IMO 官方的要求,没有急于宣布结果。
仔细研究哈萨比斯的推文,只字未提 OpenAI,但又处处在针对 OpenAI。
哈萨比斯的三条回复,主要强调了这么几点:官宣是没有抢跑的,成绩是 IMO 认证的,模型也是未来可用的。
这三点,刚好和抢先宣布夺金结果被锤的 OpenAI 形成了鲜明对比。
IMO 评审团和协调员们普遍认为,AI 开发商在 IMO 期间(尤其是闭幕式之前)宣布成绩是 “粗鲁且不恰当的”。
除了公告发布时间的问题,OpenAI 到底得没得金牌也有争议。
领导 DeepMind 超级推理团队的 Thang Luong 补充,IMO 内部其实有一份官方评分指南,外部无法获取。没有基于该指南的评分就没有资格获得奖牌。
这届 IMO 共 6 道题,每题 7 分。金牌线 35 分,OpenAI 自报的成绩也刚刚过线,即使是解答过程中微小的扣分都可能让 OpenAI 从金牌跌到银牌。
有网友评价:OpenAI 一如既往的为了炒作什么都干得出来。没有官方分数,没有耐心,也没有羞耻心。
此外,OpenAI 参赛用的模型也是未公开版本,并且可能以后也不会公开。
总之是处处和谷歌对比鲜明。
OpenAI 研究员回应质疑
针对以上这些质疑,OpenAI 研究员 Noam 在给谷歌送出祝福后,也顺带进行了回应:
首先,Noam 解释 OpenAI 没和 IMO 官方合作不是没收到邀请,而是 OpenAI 自己拒绝了。
其次是关于作答过程和评分的权威性,Noam 表示没有使用 RAG 或者任何工具,而打分是由 3 位 IMO 获奖者给出的。
同时 Noam 还公开了 OpenAI 模型的回答,表示任何人都可以检查。
最后是关于宣发时间,Noam 表示公布成绩之前和 IMO 董事会成员进行过沟通,后者要求等到颁奖仪式之后再发布,OpenAI 表示接受。
而 OpenAI 官宣的时间是在太平洋时间凌晨 1 点,彼时颁奖已经结束,OpenAI 没有被要求需要等到更晚的时间再发布。
虽然 Noam 的解释获得了部分网友的认可,但说一千道一万,网友还是表示倾向于站在谷歌这一边。
总之最近的 OpenAI,除了丢人还是丢人。
小扎磨刀霍霍,奥特曼人丢了。
谷歌同场竞技,奥特曼丢人了。
Gemini 回答:
storage.googleapis.com/deepmind-me…
OpenAI 回答:
github.com/aw31/openai…
参考链接:
[1]deepmind.google/discover/bl…
[2]arstechnica.com/ai/2025/07/…
[3]x.com/demishassab…
[4]x.com/polynoamial…
欢迎在评论区留下你的想法!
— 完 —