夕小瑶科技说 2024年11月11日
陶哲轩和Karpathy推荐的数学测试,让全体LLM的数学几乎得0分:解决率2%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Epoch AI发布了FrontierMath,一个由60多位顶尖数学家设计的全新数学基准测试,旨在评估大语言模型的数学能力。该基准包含数百个原创数学问题,涵盖多个数学分支,结果显示,包括GPT-4、Claude等在内的顶级大模型在FrontierMath上的正确率不到2%,远低于其在其他数学基准测试上的表现。FrontierMath的设立是为了避免数据污染,所有问题都是新的且未发表的,并经过严格的同行评审和自动验证。专家们认为,FrontierMath提出的问题极具挑战性,甚至超过了当前AI的能力,反映出大模型在多步骤推理、深层理解和创造性解决问题等方面存在局限性。

🤔Epoch AI发布了FrontierMath,一个包含数百个原创数学问题的全新基准测试,涵盖数论、代数几何等多个数学分支,旨在评估大语言模型的数学能力。

📊测试结果显示,包括GPT-4、Claude等在内的顶级大模型在FrontierMath上的正确率不到2%,与其他数学基准测试中90%以上的正确率形成鲜明对比,暴露了大模型在数学推理方面的局限性。

🛡️FrontierMath的所有问题都是新的且未发表的,并经过严格的同行评审和自动验证,以防止数据污染,确保测试的公平性和有效性。

💡菲尔兹奖得主等数学专家认为,FrontierMath提出的问题极具挑战性,反映出大模型在多步骤推理、深层理解和创造性解决问题等方面存在局限性。

🤔FrontierMath的出现,引发了人们对大模型数学能力的深入思考,也为推动AI技术改进和探索机器智能本质提供了重要视角。

原创 小鹿 2024-11-11 16:42 四川

夕小瑶科技说 原创
作者 | 小鹿

最近,出现了一个数学基准集,让大模型们的数学集体翻车,正确率还不到2%。

就是这家非营利研究机构Epoch AI,它集合了世界最顶尖的60多位数学家(包括国际数学奥林匹克(IMO)问题编写者和菲尔兹奖得主)发布了FrontierMath,专治各种LLM不服的全新的数学基准测试。

FrontierMath包含数百个原创数学问题,涵盖了数学大多数的分支方向,从计算密集型的数论,到抽象的代数几何和范畴论问题。

大模型动不动在现在的数学benchmark就是接近100%的正确率,好像真的已经统计数学界了,FrontierMath的出现,就是要考考这些大语言模型到底多厉害。

结果,大语言模型全体暴露,正确率竟然不到2%,这与GSM-8K和MATH等其他流行的数学基准测试形成鲜明对比,在那里这些行业最模型现在实现了超过90%的准确率。。。

基准地址:https://epochai.org/frontiermath

题目是不是太难了?

这个非常厉害的基准FrontierMath的设定规则是这样的:

小鹿给大家准备了一道题,让我们一起看下~

第一道题是关于Artin原根猜想的数论题目,问题要求我们:找出集合Sx,其中包含满足,的所有质数计算在质数中的密度,求出当趋向于无穷时的极限密度,最后计算⌊10^7 × d∞⌋:

小鹿本来还想算一算,但是我连题目也看不明白。。。。那伟大的大语言模型老师们能做出来吗:

嘶,他们竟然看的懂题目!而且真的计算出来了,有数学大佬们看看算的对吗。。。

实验分析

FrontierMath评估了目前行业内最顶尖的六个模型:o1 ,Claude 3.5 Sonnet、GPT-4o,Grok和Gemini 1.5 Pro。

即使有延长的思考时间(10,000个token)、Python访问权限以及运行实验的能力,成功率仍然低于2%——相比之下,在GSM-8K和MATH等传统基准测试中,这些大语言模型的成功率超过90%

Epoch AI指出,现在的大模型数学测试的基准如GSM8K和MATH早就被刷烂了,新的模型能拿到高分并不是因为真的懂了,会了数学。而是数据已经污染了,在训练中已经见过了原题、相似题了。而团队设计的全新未公开的题目才是实打实的考验。

想抄都没门。。

看似Epoch AI说的很有道理哎!但是小鹿觉得,这个题会不会有点太难了。。

听听大佬们怎么看待

Epoch AI采访了多位菲尔兹奖(数学界的最高荣誉)得主,包括陶哲轩 (2006)、蒂莫西·高尔斯 (1998)、理查德·博赫兹 (1998),以及国际数学奥林匹克竞赛 (IMO) 教练陈谊廷 (Evan Chen)。

这些大佬是这样说的:

2006年菲尔兹奖获得者陶哲轩:这些问题极具挑战性…我认为至少在未来几年内,人工智能都无法解决这些问题。
1998年菲尔兹获得者:即使只能正确回答其中一个问题,也远远超出了我们目前的能力,更不用说完全掌握它们了。

Andrej Karpathy大佬也来了,转发了推特发表了看法:

我对这个前沿数学的新基准做出了反应,其中 LLM 只能解决 2% 的问题。之所以引入这个基准,是因为 LLM 正在日益超越现有的数学基准。有趣的问题是,尽管根据许多人的说法 (/evals),LLM 正在逐渐进入顶级专家领域(例如数学和编码等),但你不会雇用他们而不是从事最琐碎的工作的人。如果你在提示中将问题描述整齐地摆在盘子上,他们可以解决复杂的封闭问题,但他们很难以一种人们会觉得非常容易的方式将长而自主的解决问题序列连贯地串联起来。


这是莫拉维克悖论的变种,他在 30 多年前就观察到,人类认为的容易/困难的事情与计算机认为的容易/困难的事情在直觉上可能大不相同。例如,人类对计算机下棋印象深刻,但国际象棋对计算机来说很容易,因为它是一个封闭的确定性系统,具有离散的动作空间、完全可观察性等等。反之亦然,人类可以系鞋带或折叠衬衫,但根本不会想太多,但这是极其复杂的感觉运动任务,对硬件和软件的最新技术提出了挑战。这就像 OpenAI 不久前发布的魔方,大多数人专注于解决问题本身(这很简单),而不是用机械手转动魔方的一个面这一实际上极其困难的任务。


所以我非常喜欢这个 FrontierMath 基准测试,我们应该做更多。但我还认为,如何为所有“简单”但实际上很难的东西创建评估是一个有趣的挑战。非常长的上下文窗口、连贯性、自主性、常识、有效的多模式 I/O…

结语

数学评估作为衡量大语言模型能力的重要维度,因为数学问题通常具有明确的逻辑结构和严谨的推理链条,相较于其他领域的推理评测具有绝对的优势。

FrontierMath评测集的推出是不仅展示了各大模型在数学推理方面的具体表现,更重要的是揭示了当前AI系统在数学能力上的系统性局限。

这些局限包括:在多步骤推理中保持逻辑一致性的挑战、对问题本质的深层理解能力不足,以及创造性解题策略的缺乏等。

而这些能力恰恰是开展前沿科学研究所必需的。

因此,通过严谨的数学评估来衡量AI系统在这些关键认知维度上的进展,对于理解人工智能的发展现状和未来方向具有重要的指导意义。这不仅有助于推动AI技术的改进,也为探讨机器智能的本质特征提供了重要视角~



跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

FrontierMath 大模型 数学 人工智能 基准测试
相关文章