GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

机器之心 9小时前

近期，AAI机构提出的新基准FormulaOne测试了包括GPT-5、Gemini 2.5 Pro在内的多款前沿大模型在科研级推理能力。测试结果显示，在最深层难度的问题上，所有模型均未能成功解答，成功率均为0%。即使是浅层难度的问题，模型表现也参差不齐，顶尖模型仅能达到50%-70%的正确率。这表明，尽管大模型在某些领域表现出色，但在复杂的、需要深度推理和组合分析的科研级难题面前，其能力仍有待提升，距离具备博士级科研推理能力尚有差距。FormulaOne的出现，为评估AI的深层推理能力提供了一个新的视角。

📊 **FormulaOne基准揭示大模型科研推理短板**：AAI机构提出的FormulaOne基准包含220个新颖的图结构动态规划问题，难度覆盖中等至科研级别。测试结果显示，即使是GPT-5、Gemini 2.5 Pro、Grok 4等顶尖大模型，在最深层难度的问题上成功率均为0%，暴露了当前大模型在科研级复杂推理能力上的局限性。

🧠 **模型在不同难度下表现差异显著**：在浅层难度问题上，大模型表现出一定的熟悉度，正确率可达50%-70%。然而，随着问题深度的增加，模型表现急剧下降。例如，在深层难度问题上，多数模型仅能解出1/100的题目，GPT-5 Pro也仅解出4/100，显示出模型在处理更复杂、需要多步骤推理的问题时能力不足。

⚙️ **FormulaOne测试方法与理论基础**：FormulaOne的测试题目基于Courcelle的算法元定理，该定理指出，对于类似树的图，许多可以用一元二阶逻辑定义的问题，可以通过动态规划算法以线性时间解决。其核心在于利用树分解将图结构组织成树状的“袋”，并通过动态规划逐步解决问题，这要求对问题底层结构有深刻理解，并能设计精妙的状态转移。

💡 **AAI机构与人工专家智能（AEI）**：AAI由知名企业家Amnon Shashua创立，专注于“人工专家智能”（AEI）的研究，旨在结合领域知识与严谨科学推理，突破传统AI的瓶颈。AEI的目标是使AI能够像顶级人类专家一样，运用严谨推理解决复杂科学和工程难题，这与FormulaOne测试所体现的能力需求相契合。

2025-08-15 12:14 北京

这组题「GPT-10」来了也不一定扛得住。

机器之心报道

机器之心编辑部

前沿 AI 模型真的能做到博士级推理吗？

前段时间，谷歌、OpenAI 的模型都在数学奥林匹克（IMO）水平测试中达到了金牌水准，这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力？

然而，现实可能并不如想象中那么乐观。

AAI，一个专注于超智能和高级 AI 系统研究的机构，近期提出的一个新基准 FormulaOne，让一众大模型集体得零分，包括 GPT-5、o3 Pro、Gemini 2.5 Pro、Grok 4 等前沿模型。

HuggingFace：https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard

FormulaOne 包含 220 个新颖的图结构动态规划问题，按难度分为三类，从中等难度直至科研级别。其中最高等级难度的题包括拓扑与几何、组合问题分析等。

测试题的具体示例如下：依次是浅层难度、深层难度、更深层难度。

尽管这些问题陈述起来通常很自然，但其解决方案却远非显而易见。这一大类问题的可解性由 Courcelle 提出的一个算法元定理所保证，该定理大致可以表述为：

「对于每个足够类似树的图，任何可用一种富有表现力的形式逻辑（一元二阶逻辑）定义的问题，都可以通过一个动态规划算法来解决，且其运行时间与图的阶数成线性关系。」

其关键在于使用一种称为树分解的结构，它将图的顶点组织成一系列重叠的集合，即「袋」，而这些「袋」本身则以树状结构排列。

然后，算法可以遍历这个由「袋」构成的树，并使用动态规划分步解决问题。这个过程涉及到设计一个「状态」，该「状态」总结了「袋」内部分解的所有必要信息，然后定义当顶点被引入、遗忘或当「袋」被合并时，该「状态」如何转换。

问题陈述看似简单，但这背后实则掩盖了发现正确动态规划解法的非凡难度。这个过程遍布着微妙的组合与逻辑陷阱，要求（研究者）对问题的底层结构有深刻的理解。关于解决一个名为 Maximal-Cluster-Graph 的难题所需的十五个相互依赖的推理步骤，其详细的推演过程请参阅论文的附录。

论文地址：https://arxiv.org/pdf/2507.13337

这个工作在社交媒体上引发了很大关注，许多人表示应该让人类博士生也参与评估。

结果

在浅层难度上，顶尖模型的表现达到了 50%–70%，表明它们对相关问题类型已有一定熟悉度，换句话说，这些任务完全处于它们的训练分布之内。

在深层难度上，Grok 4、Gemini-Pro、o3-Pro、Opus-4 等模型最多只能解出 1/100 的题目；GPT-5 Pro 表现相对更好，但也只解出了 4/100。

在最深层难度上，所有模型的成功率均为 0%，集体崩溃。

AAI

AAI（AA-I Technologies，Double AI）是一家由以色列知名企业家、科学家 Amnon Shashua 于 2023 年 8 月在耶路撒冷创办的人工智能初创公司。

Shashua 是自动驾驶公司 Mobileye、AI21 Labs 和 OrCam 等多个知名项目的创始人，在自动驾驶、人工视觉和 AI 领域具有极高声誉。

AAI 的核心目标是推动「人工专家智能」（Artificial Expert Intelligence，AEI）的理论与应用，提出区别于传统窄域 AI 和 AGI 的新 AI 发展路径。这种 AEI 强调将领域知识与严密的科学推理能力相结合，旨在突破「只擅长特定任务」或「泛化无精度」的传统瓶颈，使 AI 可以像顶级人类专家一样，运用严谨推理来解决复杂科学或工程难题。

创立一年内，据报道公司已吸引了数千万美元投资，并在 AWS 2024 年生成式 AI 加速器项目中入选（获赠 100 万美元计算资源），加速自身 AI 基础设施建设。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

结果

AAI

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签