Datawhale 2024年11月15日
AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Epoch AI联合60多位顶尖数学家,开发了一个名为FrontierMath的全新数学推理基准测试,旨在评估大型语言模型(LLM)在高级数学推理方面的能力。结果显示,包括GPT-4、Claude 3.5等在内的六个领先模型在FrontierMath上的正确率不到2%,远低于其在传统基准测试中的表现。FrontierMath涵盖了现代数学的大多数主要分支,题目均为原创且未发表,旨在避免数据污染,并通过自动可验证的解决方案实现高效评估。该测试结果揭示了LLM在真正复杂数学推理方面的局限性,也引发了对人工智能能力与人类认知差异的思考,例如莫拉维克悖论,即人类认为容易的事情对AI可能很难,反之亦然。

🤔FrontierMath是一个由Epoch AI与60多位顶尖数学家合作开发的全新数学推理基准测试,旨在评估大型语言模型(LLM)在高级数学推理方面的能力,涵盖了数论、代数几何、范畴论等多个数学分支。

📊评估结果显示,六个领先的LLM模型(如GPT-4、Claude 3.5等)在FrontierMath上的正确率不到2%,与传统基准测试中90%以上的正确率形成鲜明对比,暴露了LLM在复杂数学推理方面的局限性。

🚫FrontierMath的设计原则包括:所有问题均为原创且未发表,防止数据污染;解决方案自动可验证,实现高效评估;问题“防猜测”,避免模型通过简单猜测获得高分。

💡FrontierMath的出现引发了对莫拉维克悖论的讨论,即人类认为容易的事情对AI可能很难,反之亦然。例如,人类认为下棋很难,但对AI来说却相对容易,而系鞋带等对人类来说容易的事情,对AI而言却非常困难。

🏆菲尔兹奖得主等数学专家认为FrontierMath的题目极具挑战性,需要深厚的专业知识和强大的推理能力才能解决,进一步证明了该基准测试的有效性和难度。

2024-11-14 22:01 浙江

 Datawhale分享 

关于:大模型+数学,来源:AI寒武纪

大语言模型(LLM)最近在各种数学 benchmark 上疯狂刷分,动辄 90% 以上的正确率,搞得好像要统治数学界一样。

然而,Epoch AI 看不下去了,联手 60 多位顶尖数学家,憋了个大招——FrontierMath,一个专治 LLM 各种不服的全新数学推理测试!

结果惨不忍睹,LLM 集体“翻车”,正确率竟然不到 2%!?

看看 Epoch AI 是怎么做的

FrontierMath 是一个用于评估人工智能高级数学推理能力的基准测试。

它是 Epoch AI 与 60 多位顶尖数学家合作,所创建的数百道原创的、极具挑战性的数学问题。

FrontierMath 涵盖了现代数学的大多数主要分支——从数论中计算密集型问题到代数几何和范畴论中的抽象问题,目标是捕捉当代数学的概貌。

即使是经验丰富的数学专家,也得绞尽脑汁,花费数小时甚至数天才能解出来。

FrontierMath 具有三个关键的设计原则:

1)所有问题都是新的且未发表的,以防止数据污染;

2)解决方案是自动可验证的,从而实现高效的评估;

3)问题是“防猜测”的,在没有正确推理的情况下解决的可能性很低

评估结果

评估了六个领先的模型,包括 o1 ,Claude 3.5 Sonnet、GPT-4o,Grok 和 Gemini 1.5 Pro。即使有延长的思考时间(10,000 个 token)、Python 访问权限以及运行实验的能力,成功率仍然低于 2%。

相比之下,在过往的传统基准测试中,成功率超过 90%!

Epoch AI 指出,现有的数学 benchmark,例如 GSM8K 和 MATH,早就被LLM 们刷烂了,高分的原因很大程度上是因为数据污染

说白了,就是 LLM 通过记忆大量的“考古题”来提高分数,真正考试的时候,当然容易!

而 FrontierMath 则完全不同,所有题目都是全新的、未公开的,LLM 想作弊都没门!这下 LLM 们,自然就暴露了它们的真实水平。


连菲尔兹奖得主都服了

为了进一步验证 FrontierMath 的难度,Epoch AI 还特意采访了多位菲尔兹奖(数学界的最高荣誉)得主,包括陶哲轩 (2006)、蒂莫西·高尔斯 (1998)、理查德·博赫兹 (1998),以及国际数学奥林匹克竞赛 (IMO) 教练陈谊廷 (Evan Chen)。

这些大佬们一致认为,FrontierMath 的题目非常具有挑战性,需要深厚的专业知识和强大的推理能力才能解决。

大佬对 FrontierMath 的看法:LLM 评估中的莫拉维克悖论

莫拉维克悖论(Moravec's paradox)是由人工智能和机器人学者所发现的一个和常识相佐的现象。和传统假设不同,人类所独有的高阶智慧能力只需要非常少的计算能力,例如推理,但是无意识的技能和直觉却需要极大的运算能力。这个理念是由汉斯·莫拉维克、罗德尼·布鲁克斯、马文·闵斯基等人于1980年代所阐释。如莫拉维克所写;“要让电脑如成人般地下棋是相对容易的,但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的

Andrej Karpathy对这个新的前沿数学基准测试(LLM仅解决了2%)的反应:

之所以引入这个基准,是因为大模型越来越多地碾压现有的数学基准。有趣的问题是,尽管从许多方面(/evals)来看,大模型正逐步跻身顶级专家行列(如数学和编码等),但你不会雇用他们而不是让他们从事最琐碎的工作。

如果你把问题描述整齐地放在盘子里,他们就能解决复杂的封闭式问题,但他们很难连贯地把长长的、自主的、解决问题的序列串联起来,而人却会觉得非常容易。

对人类来说容易/困难的事情,与对计算机来说容易/困难的事情,和常识可能大相径庭。

例如,人类对计算机下国际象棋印象深刻,但国际象棋对计算机来说却很容易,因为它是一个封闭的、确定性的系统,具有离散的行动空间、完全的可观测性等等。

反之亦然,人类可以系好鞋带或叠好衬衫,而且根本不需要考虑太多,但这是一项极其复杂的传感运动任务,对硬件和软件的技术水平都是挑战。

这就像不久前 OpenAI 发布的魔方一样,大多数人都把注意力集中在解魔方本身(这是微不足道的),而不是用机器人的手转动魔方的一个面这一实际难度极高的任务。

因此,我非常喜欢这个 FrontierMath 基准,我们应该制作更多的基准。但我也认为,如何为所有 '容易 '但其实很难的东西创建评估是一个有趣的挑战。

结语

不管怎么说,数学为评估复杂推理提供了一个独特的理想环境。它需要创造力和 extended chains of precise logic——通常涉及复杂的证明——这些证明必须经过精心计划和执行,但允许对结果进行客观验证

衡量人工智能在创造性问题解决和在多个步骤中保持精确推理方面的能力,可能有助于深入了解在系统性、创新性思维(科学研究所需)方面的进展

探索 FrontierMath:

https://epochai.org/frontiermath 发布了带有详细解答、专家评论和研究论文的示例问题

一起“三连

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大型语言模型 数学推理 FrontierMath 人工智能 莫拉维克悖论
相关文章