新智元报道
新智元报道
之所以选择这五位参赛选手,是因为它们此前都在MathArena中有出色的表现。其中,每个模型都使用推荐的超参数运行,并且设置了64000的最大token限制。Prompt如下——
-你正在撰写一份证明,而不是证明大纲。每一步都应该仔细解释并记录。如果解释不充分,评委将认为你无法解释清楚,从而降低你的分数。
-你可以使用通用的定理和引理,但前提是它们必须是众所周知的。一个简单的判断标准是:如果该结果有名称,并且足够有名以至于有维基百科页面或类似的内容对其进行描述,则允许使用。任何来自论文的结果,如果它不会在高中或本科低年级数学课程中教授,则不应使用。任何此类结果的使用将立即导致你的成绩为零。
-在你的证明中不要跳过计算步骤。清楚地解释做了哪些变换,以及为什么在计算的每一步中这些变换是被允许的。
-你应该使用正确的LaTeX符号来编写公式和数学符号。你应当将这些公式包含在适当的符号中(行内公式使用 "\\(" 和 "\\)",块状公式使用 "\\[" 和 "\\]"),以增强证明的清晰度。不要使用任何Unicode字符。
-你的证明应该是自包含的。
-如果你对某个具体步骤不确定,或者不知道如何证明一个中间结果,请明确说明。指出你的不确定性比做出错误的陈述或主张要好得多。
为了公平,项目组这次采取了一种「best of 32」的策略。也就是,每道题都会跑出32个不同答案,然后让AI自己当裁判,通过一轮轮PK选出最强解法后,才会送去给人类评审打分。这样,模型在推理时,就会尽可能多地扩展计算资源。因此,这次比赛可以说不仅是卷得离谱,烧钱也烧得令人心疼——比如,Grok-4的单题评测成本就高达20美元,所以24题的总成本,就超过了480刀!所以,大模型们的表现如何?
Gemini 2.5 Pro,全场最高分Gemini 2.5 Pro在满分42分的考卷中,拿到了13分,约等于31%。这个分数,连铜牌的门槛都没摸到。而即使是作为表现最好的AI,Gemini也依然有不少毛病。比如,遇到不会做的题时,它会编出一些看起来似乎很权威的假定理,比如「根据史密斯-约翰逊超平方引理可得」。但实际上,这个定理根本就不存在!此前Gemini 2.5 Pro的答题情况Grok-4:翻车最严重,基本没救了而最近因为AI女友事件大出风头的Grok-4,则严重翻车了。它的表现堪称灾难:它给出的绝大多数答案只有最终结果,完全不解释,整个就是一副「我懒得证明,我就是知道」的摆烂态度。而显著落后的一个选手除了Grok-4,还有DeepSeek-R1。这两个AI在此次奥数中的成绩,相较于它们在MathArena基准测试中的早期成绩,退步明显。此前Grok 3 mini的答题情况AI解题的独特姿势:做不出来,我就跳过在这个过程中,研究者们还发现了AI做数学题的一个有趣现象。通常,在人类选手参加IMO比赛时,他们要么一题全部做对,要么干脆拿0分,拿3分、4分这样的中等分数,其实是很少见的。不过大模型可就完全不一样了,它们特别擅长考个「及格边缘线」。也就是说,它们时常能捕捉到正确的解题思路,方向是对的,但是一到最关键的地方就会掉链子,逻辑跳跃严重。尤其是到了该证明的关键一步,它们就不证明了。而这恰恰是人类选手最不容易出错的地方。对此,评审组的感受是:AI现在已经能抓住「人类感」的思路,但是在细节能力上,还是差点火候。而如果AI们能把这些逻辑问题给搞定,未来它们的成绩说不定还真能冲上领奖台。此前DeepSeek-R1的答题情况
文章原文