AI 的 IMO 2025 成绩这事已经进入叠加态了。
先是 MathArena(一个苏黎世的研究机构)发布了一个结果,说各大 AI 成绩都不怎么样,最好的 Gemini Pro 2.5 也只做出来三分之一。这个结果被广泛引用(了几天)。——这其实和我对 AI 能力的认知是相符的。
然后 OpenAI 搞了个大新闻,说他们的一个内部模型获得了 IMO 金牌。这个模型(他们自称为 IMO gold LLM)并不会向公众发布,只是内部试验用。
这条消息立刻引起很大争议。陶哲轩估计是被问烦了,在他自己的社交媒体上不冷不热地说:我不会就不公开方法的自我宣称金牌做出任何评论。
然后 DeepMind 宣布自己的模型 Gemini Deep Think 也获得了金牌(做出六道题中的前五道)。但为了和 OpenAI 区隔,DeepMind 特意强调,自己的结果得到了 IMO 主办方的官方认证。CEO Demis Hassabis 不忘阴阳怪气,在社交媒体上说:「我们没有在周五宣布,是因为我们尊重 IMO 委员会的原始要求,即所有 AI 实验室都应该在官方结果得到独立专家验证且学生们理应获得应有的赞誉之后才分享他们的结果。」——但他们用的也是没有公开的模型,所以陶哲轩也没有公开评论。
然后就在昨天,一篇新的报告出笼,宣称只用市面上公开的 Gemini Pro 2.5,配合上精心设计的 prompt pipeline(但不包含作弊性的提示),就能在 IMO 上拿到金牌。报告里详述了他们的做法。Google 对此尚未作出评论,我怀疑他们对此略有点尴尬(?)
说实话,上面这四条新闻里我最诧异的是最后一条。如果可复现,这意味着当下市面上的模型的潜力远远超出它们纸面上的能力。
但总之,现状是AI正好落在一个好像过线了又好像还没有的薛定谔状态里。看这个意思,至多明年肯定就过了。