机器之心 9小时前
DeepMind夺得IMO官方「唯一」金牌,却成为OpenAI大型社死现场
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌DeepMind开发的Gemini进阶版模型在国际数学奥林匹克(IMO)竞赛中表现卓越,成功解决五道超高难度试题,以35分的成绩获得金牌,成为首个获官方认可的AI金牌得主。该系统无需专业编程语言,仅凭自然语言理解便能攻克复杂数学难题。Gemini Deep Think通过并行思维探索多种解决方案,并以端到端自然语言方式生成数学证明,在比赛时限内完成了任务。谷歌DeepMind此次谨慎发布成绩,尊重竞赛规则,赢得了AI界的广泛赞誉,并与OpenAI因发布方式引发的争议形成鲜明对比。此次事件不仅是技术竞赛,更是对AI与人类社会规范、节奏和合作精神的考验。

🤖 Gemini进阶版模型在IMO竞赛中取得历史性突破,以35分的成绩获得金牌,成为首个被官方认证为金牌水平的AI系统。该模型展示了AI在无需专业编程语言的情况下,仅通过自然语言理解即可解决复杂数学难题的能力。

🧠 Gemini Deep Think通过“并行思维”技术,能够同时探索多种潜在的解决方案,而非依赖单一推理链,这使其在处理高难度数学问题时更具优势。它能够直接从官方问题描述中生成严谨的数学证明,并在规定的比赛时限内完成。

🏆 谷歌DeepMind在发布竞赛成绩时采取了谨慎的态度,等待官方独立验证和学生荣誉得到应有肯定后才公布,此举赢得了AI界的广泛赞誉,并与OpenAI因提前发布成绩而引发的争议形成鲜明对比,体现了对竞赛规则和合作精神的尊重。

💬 OpenAI研究科学家Noam Brown对谷歌DeepMind表示祝贺,并回应了关于其自身IMO成绩发布的质疑。OpenAI婉拒了基于Lean语言的正式竞赛邀请,坚持自然语言通用推理研究,并强调其提交的证明经过外部IMO奖牌获得者评分,且已公开发布以供验证。OpenAI也表示在与IMO董事会成员沟通后,在颁奖典礼结束后才公开了其成果。

机器之心报道

机器之心编辑部


刚刚,谷歌 DeepMind 宣布,其新一代 Gemini 进阶版模型在 IMO 竞赛中正式达到金牌得主水平,成功解决了六道超高难度试题中的五道,拿下 35 分(满分 42 分),成为首个获得奥赛组委会官方认定为金牌的AI系统。


更重要的是,该系统首次证明人工智能无需依赖专业编程语言,仅通过自然语言理解即可攻克复杂数学难题。


谷歌 DeepMind 首席执行官哈萨比斯在社交媒体平台 X 上强调:这是官方结果!



谷歌这项成绩远超其在 2024 年的表现。当时,AlphaProof 和 AlphaGeometry 系统组合解决了六个问题中的四个,荣获银牌。



今年的突破来自 Gemini Deep Think,这是一个增强型推理系统,采用了研究人员所谓的并行思维。与遵循单一推理链的传统人工智能模型不同,Deep Think 会同时探索多种可能的解决方案,最终得出答案。


哈萨比斯在后续帖子中解释道:谷歌的模型以自然语言进行端到端运行,直接从官方问题描述中生成严格的数学证明。并强调,该系统在比赛标准的 4.5 小时时限内完成了任务。



谷歌这次官宣,让 OpenAI 处于尴尬的处境,毕竟 OpenAI 因绕过官方竞赛规则提前官宣,遭到很多人吐槽。可参考《OpenAI 拿 IMO 金牌是火了,但惹怒大批人:抢发炒作,抢学生风头》。


谷歌 DeepMind 这种谨慎的发布方式赢得了 AI 界的广泛赞誉,尤其与竞争对手 OpenAI 对类似成绩的处理方式形成了鲜明对比。


「我们没有在周五宣布这一消息,是因为我们尊重 IMO 理事会最初的要求,即所有人工智能实验室只有在官方结果经过独立专家验证,并且学生获得应有的赞誉后,才能分享其成果。」哈萨比斯写道。



对比之下,大家都在谴责 OpenAI 做事不地道、毫无风度、无礼。反观谷歌 DeepMind ,行事正直,符合人性。



这种批评源于 OpenAI 决定在不参与 IMO 官方评估流程的情况下公布自己的成绩。OpenAI 让一个由前 IMO 参赛选手组成的小组对其 AI 的表现进行评分,社区中的一些人认为这种做法缺乏可信度。


OpenAI 又来回应了


OpenAI 研究科学家 Noam Brown 向谷歌发来祝贺,说是祝贺,更多的是为了回应质疑。以下是回应内容。


谷歌采用的方法与我们略有不同,这表明还有很多研究方向值得探讨。


两个月前,IMO 组委会曾通过邮件邀请我们参加基于 Lean 语言的正式比赛。由于我们一直致力于不受 Lean 限制的自然语言通用推理研究,因此婉拒了该邀请。组委会从未就自然语言解题形式与我们进行过接洽。


在过去的几个月里,我们在通用推理方面取得了很大进展。这包括收集、整理和训练高质量的数学数据,这些数据也将用于未来的模型。在 IMO 评估中,我们没有使用 RAG 或任何其他工具。



我们提交的每份证明都由三位外部 IMO 奖牌获得者评分,并获得了一致的正确性认可。我们还将证明公开发布,以便任何人都可以验证其正确性。


证明地址:https://github.com/aw31/openai-imo-2025-proofs/



在分享我们的结果之前,我们与 IMO 的一位董事会成员进行了交谈,他要求我们等到颁奖典礼结束后再公开结果,我们的发布满足要求。


我们在颁奖典礼结束后,于太平洋时间~凌晨 1 点(澳大利亚东部标准时间下午 6 点)宣布。从来没有人要求我们晚于此宣布。


最重要的是,我们很高兴与世界分享我们的进展和成果。AI 推理能力正在快速发展,这些 IMO 结果确实表明了这一点。



通过这件事,我们不难发现,这场 AI 登上数学奥林匹克舞台的较量,不只是一次技术竞赛,更是一场关于规范、节奏与合作精神的展示。DeepMind 选择了等待官方认可,再谨慎发布成绩,赢得了金牌,也赢得了尊重。而 OpenAI 尽管也取得了不俗成果,却因时机与方式的问题,引发了争议。这背后提醒我们,在通往 AGI 的路上,除了技术力,如何与人类社会的规则与价值观对齐,正变得愈发重要。 


参考链接:

https://x.com/polynoamial/status/1947398536577822798

https://venturebeat.com/ai/google-deepmind-makes-ai-history-with-gold-medal-win-at-worlds-toughest-math-competition/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com



今天看啥地址:http://www.jintiankansha.me/t/fZCxRzQRun

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

谷歌DeepMind Gemini 数学奥林匹克 AI竞赛 OpenAI
相关文章