GPT-5 正式发布，吹了 25 个榜单，暴露OpenAI 没招了。

原创 R.Zen 2025-08-08 03:34 北京

GPT-5发布会就这？实力留观众自己脑补

GPT-5，终于来了。

从年初传到年中，今天凌晨一点的发布会，OpenAI 总算没再放鸽子。

跟 GPT-4o 的实时多模态体验不同，这次硬件、功能、交互统统缺席；唯有榜单。一口气出了 25 个榜单成绩单。

GPT-5 核心榜单速览

这次特别还新增了几个新的榜单：

HealthBench：OpenAI 2025 年新建的真实病例基准；Hard 子集 46.2 %，医疗领域首次大幅超越 GPT-4o。

LongFact & FActScore：开放事实检索基准；GPT-5“thinking” 幻觉率约为 o3 的六分之一。

Sycophancy Eval：奉承/过度认同率从 14.5 % → < 6 %，聊天风格更客观。

Deception Stress-Test：误导性/虚假完成率 4.8 % → 2.1 %，更诚实可靠。

Economically-Important Tasks（OpenAI 内部）：覆盖 40+ 职业，约 50 % 任务与专家持平或更好，显著领先 o3 与 ChatGPT Agent。

具体的榜单跑分情况挑几个重要的展开一下——

第一张是软件工程领域的 SWE-bench Verified。

GPT-5 在这里一把拿下了 74.9%，而且其中超过一半（52.8%）是在「with thinking」模式下完成的——也就是允许它走完整的推理过程。

但是。。。这个图 52.8>69.1=30.8

大家都吐槽疯了 hh。堪称本世纪最糟糕的数据可视化案例。。

只比 Claude Opus 4.1 74.5% 强一丢。在没有深度评测的情况下，我们很难妄评它能不能打得过 Claude。

回归正题，右边那张 Aider Polyglot，是多语言代码编辑任务。

GPT-5 拿了 88%，而 GPT-4o 才 25.8%。准确率直接提高了 3.4 倍，完全是两个量级的存在。

然后是 MMMU 和 AIME。

MMMU 是大学级别的视觉逻辑题，相当于让模型看图说理；AIME 是美国奥数入门级竞赛题，专门考长链条数学推理能力。

GPT-5 在这两项上的表现同样亮眼，尤其是 AIME，居然跑出了 100% 准确率（在配备工具和运行 Python 脚本的状态下）。

上一个刷爆的还是 grok 4 heavy。

Reliability & Accuracy（幻觉率）。

在开放题 prompt、医学对话和 ChatGPT 实际用户问题这三组场景里，GPT-5 的错误率都大幅降低。以 HealthBench 医疗对话为例，GPT-4o 的幻觉率是 15.8%，GPT-3.5 也不低，而 GPT-5 在「with thinking」模式下降到了惊人的 1.6%，直接压到个位数。就连日常问答场景里的错误率，也从 22% 降到 4.8%，清了快五分之四。

而当 GPT-5 和 o3 在面对长推理任务时的表现，开始走上了完全不同的路径。

比如说，科学图表推理，GPT-5 一路从低输出到高输出，准确率从 74% 上涨到 82%。而 o3 呢？其准确率在 medium 阶段后趋于平缓，high 阶段甚至略有下滑，最终止步于约 77%。几乎是思考越久，越不靠谱。

榜单里比较有意思的是这个——“诚实分数”。

过去的模型遇到不可能完成的任务，会一本正经地编出一个答案，还显得很有自信。

GPT-5 在这方面收敛了不少。

比如给它一个实际上做不到的编程任务，o3 有将近一半的概率会编造一个看似合理的方案，GPT-5 的这个比例降到了 16.5%。在多模态基准 CharXiv 里，如果把所有图片都删掉，o3 依旧有 86.7% 的时候会“假看图说话”，而 GPT-5 只剩 9%。就连在真实的 ChatGPT 流量里，它的“胡编”比例也从 4.8% 降到 2.1%。

GPT-5 想做智能操作系统的底座

如果说 benchmark 是 GPT-5 的“脸面”，那背后 OpenAI 背后的动作就是想做智能操作系统的底座。

官方特别强调的是 GPT-5 是一个“一体化系统”。什么意思呢？

首先，引入 router ，可以自动调用，实时判断请求难度、所需工具、延迟预算，自动在 GPT-5（快）和 GPT-5 thinking（深思）之间切换；额度用完还能降级到 mini 版。

所以，用户不用再手动选模型，像操作系统的线程调度器，把“算力/思考时间”当资源自动分配。

同时，GPT-5 注重强任务分工，“Instruction following & agentic tool use” 模块大幅升级——模型能把复杂请求拆成多步、跨多个外部工具（浏览器、代码沙箱、数据库等）协同完成。

虽然 GPT-4o 也支持工具调用，但是 GPT-5 的任务拆解策略更强，容错性更好，不会卡顿。

安全机制被加入了产品化，成为平台内置的能力，而不只是模型被训练出的习惯。比如你问了一个危险的问题，之前 GPT 是拒绝回答，现在是部分回答你，解释原因并给出替代方案。

所以，这几个重要的 feature 把模型升级成了一个“可托管多任务、可控资源、安全可定制”的平台，从原来一个只会聊天的 chatbot，升级成一个一体化平台。

这次透露的 OpenAI 的野心太大了。

就在发布这篇文章前几分钟，我已经收到GPT-5的推送了，但是选择框里只有俩模型，其他模型全下线了？？真的一场豪赌！

三方榜单结果

之前在 Arena 榜单上 GPT-5 以“summit”为代号测试，现在在所有领域排名第一。

Arena 官方连发了 4 条动态庆祝 GPT-5，不止如此，另一个老大难的榜单 ARC 也发布 GPT-5 的成绩了。这个榜单我们之前介绍过好多次，不了解的可以翻翻之前的介绍。

GPT-5 现已通过 API 平台向开发者开放

目前已经开放了 4 个版本：GPT-5、GPT-5 mini、GPT-5 nano 以及 Chat 专用版。

价格和之前高定价不同，竟然比 GPT-4o 还便宜。都是标准版，GPT-4o 输入 2.5$/M, GPT-5只有1.25$/M。

最后，现在可以选择不同的人格语音聊天，新增 4 个官方人格 _personas_（Cynic 毒舌、Robot 机器人、Listener 倾听者、Nerd），以前只能靠 prompt hack，现在把“性格”做成可插拔接口。为了方便以后企业品牌做定制。

接下来它会怎么落地，还得等真正在各种复杂环境里跑一阵子才能见分晓。但可以肯定的是，OpenAI 已经不满足于做一个模型供应商——它在搭的是一整套可托管、可编排、可塑形的智能基础设施。

而这次平台形态的试探能不能成，我们拭目以待。

阅读原文

跳转微信打开

GPT-5 核心榜单速览

GPT-5 想做智能操作系统的底座

三方榜单结果

GPT-5 现已通过 API 平台向开发者开放

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签