AI探索站 - 即刻圈子 07月23日 09:18
AI 的 IMO 2025 成绩这事已经进入叠加态了。 先是 MathArena(一个苏黎世的研究机构)发布了一个结果,说各大 AI 成绩都不怎么样,最好的 Gemini Pro 2.5 也只做...
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,关于AI在国际数学奥林匹克(IMO)竞赛中的表现引发了广泛关注和争议。最初,MathArena发布报告称AI表现不佳,仅能完成三分之一的题目。然而,OpenAI随后宣布其内部模型获得IMO金牌,但模型不对外公开,引发质疑。陶哲轩对此持谨慎态度。DeepMind紧随其后,宣称其Gemini Deep Think模型获得金牌,并强调结果已获IMO官方认证,同时对OpenAI的发布方式提出委婉批评。最新报告则指出,公开可用的Gemini Pro 2.5模型,通过精心设计的提示工程,也能在IMO中取得金牌成绩。这表明当前AI模型的潜力可能被低估,AI在数学竞赛中的能力正处于一个快速发展且尚待明确的阶段,预计明年有望实现突破。

🤖 最初报告指出AI在IMO竞赛中表现不佳,最好的模型也只能完成约三分之一的题目,这与早期对AI能力的认知相符,显示出AI在复杂数学问题解决上仍面临挑战。

🏆 OpenAI宣称其内部模型获得IMO金牌,但因模型不公开而引发巨大争议,引发了对AI能力验证和透明度的讨论,陶哲轩等专家对此类自我宣称持保留态度。

🏅 DeepMind宣布其Gemini Deep Think模型获得IMO金牌,且成果得到了IMO主办方的官方认证,并借此机会强调了发布结果的规范性和尊重竞赛流程的重要性,显示出其对AI研究成果严谨性的追求。

💡 最新研究表明,市面上公开的Gemini Pro 2.5模型,配合优化的提示工程(prompt pipeline),理论上也能在IMO竞赛中达到金牌水平,这预示着AI模型的实际应用潜力可能远超其公开的性能指标,对AI能力评估提出了新的视角。

📈 AI在IMO竞赛中的表现呈现出“薛定谔状态”,即介于“过线”与“未过线”之间,但整体发展趋势表明,AI在高端数学领域的突破已近在眼前,预计最快明年将实现显著飞跃。

AI 的 IMO 2025 成绩这事已经进入叠加态了。

先是 MathArena(一个苏黎世的研究机构)发布了一个结果,说各大 AI 成绩都不怎么样,最好的 Gemini Pro 2.5 也只做出来三分之一。这个结果被广泛引用(了几天)。——这其实和我对 AI 能力的认知是相符的。

然后 OpenAI 搞了个大新闻,说他们的一个内部模型获得了 IMO 金牌。这个模型(他们自称为 IMO gold LLM)并不会向公众发布,只是内部试验用。

这条消息立刻引起很大争议。陶哲轩估计是被问烦了,在他自己的社交媒体上不冷不热地说:我不会就不公开方法的自我宣称金牌做出任何评论。

然后 DeepMind 宣布自己的模型 Gemini Deep Think 也获得了金牌(做出六道题中的前五道)。但为了和 OpenAI 区隔,DeepMind 特意强调,自己的结果得到了 IMO 主办方的官方认证。CEO Demis Hassabis 不忘阴阳怪气,在社交媒体上说:「我们没有在周五宣布,是因为我们尊重 IMO 委员会的原始要求,即所有 AI 实验室都应该在官方结果得到独立专家验证且学生们理应获得应有的赞誉之后才分享他们的结果。」——但他们用的也是没有公开的模型,所以陶哲轩也没有公开评论。

然后就在昨天,一篇新的报告出笼,宣称只用市面上公开的 Gemini Pro 2.5,配合上精心设计的 prompt pipeline(但不包含作弊性的提示),就能在 IMO 上拿到金牌。报告里详述了他们的做法。Google 对此尚未作出评论,我怀疑他们对此略有点尴尬(?)

说实话,上面这四条新闻里我最诧异的是最后一条。如果可复现,这意味着当下市面上的模型的潜力远远超出它们纸面上的能力。

但总之,现状是AI正好落在一个好像过线了又好像还没有的薛定谔状态里。看这个意思,至多明年肯定就过了。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI IMO 数学竞赛 模型能力 提示工程
相关文章