原创 R.Zen 2025-08-08 03:34 北京
GPT-5发布会就这?实力留观众自己脑补
GPT-5,终于来了。
从年初传到年中,今天凌晨一点的发布会,OpenAI 总算没再放鸽子。
跟 GPT-4o 的实时多模态体验不同,这次硬件、功能、交互统统缺席;唯有榜单。一口气出了 25 个榜单成绩单。
GPT-5 核心榜单速览
这次特别还新增了几个新的榜单:
HealthBench:OpenAI 2025 年新建的真实病例基准;Hard 子集 46.2 %,医疗领域首次大幅超越 GPT-4o。
LongFact & FActScore:开放事实检索基准;GPT-5“thinking” 幻觉率约为 o3 的六分之一。
Sycophancy Eval:奉承/过度认同率从 14.5 % → < 6 %,聊天风格更客观。
Deception Stress-Test:误导性/虚假完成率 4.8 % → 2.1 %,更诚实可靠。
Economically-Important Tasks(OpenAI 内部):覆盖 40+ 职业,约 50 % 任务与专家持平或更好,显著领先 o3 与 ChatGPT Agent。
具体的榜单跑分情况挑几个重要的展开一下——
第一张是软件工程领域的 SWE-bench Verified。
GPT-5 在这里一把拿下了 74.9%,而且其中超过一半(52.8%)是在「with thinking」模式下完成的——也就是允许它走完整的推理过程。
但是。。。这个图 52.8>69.1=30.8
大家都吐槽疯了 hh。堪称本世纪最糟糕的数据可视化案例。。
只比 Claude Opus 4.1 74.5% 强一丢。在没有深度评测的情况下,我们很难妄评它能不能打得过 Claude。
回归正题,右边那张 Aider Polyglot,是多语言代码编辑任务。
GPT-5 拿了 88%,而 GPT-4o 才 25.8%。准确率直接提高了 3.4 倍,完全是两个量级的存在。
然后是 MMMU 和 AIME。
MMMU 是大学级别的视觉逻辑题,相当于让模型看图说理;AIME 是美国奥数入门级竞赛题,专门考长链条数学推理能力。
GPT-5 在这两项上的表现同样亮眼,尤其是 AIME,居然跑出了 100% 准确率(在配备工具和运行 Python 脚本的状态下)。
上一个刷爆的还是 grok 4 heavy。
Reliability & Accuracy(幻觉率)。
在开放题 prompt、医学对话和 ChatGPT 实际用户问题这三组场景里,GPT-5 的错误率都大幅降低。以 HealthBench 医疗对话为例,GPT-4o 的幻觉率是 15.8%,GPT-3.5 也不低,而 GPT-5 在「with thinking」模式下降到了惊人的 1.6%,直接压到个位数。就连日常问答场景里的错误率,也从 22% 降到 4.8%,清了快五分之四。
而当 GPT-5 和 o3 在面对长推理任务时的表现,开始走上了完全不同的路径。
比如说,科学图表推理,GPT-5 一路从低输出到高输出,准确率从 74% 上涨到 82%。而 o3 呢?其准确率在 medium 阶段后趋于平缓,high 阶段甚至略有下滑,最终止步于约 77%。几乎是思考越久,越不靠谱。
榜单里比较有意思的是这个——“诚实分数”。
过去的模型遇到不可能完成的任务,会一本正经地编出一个答案,还显得很有自信。
GPT-5 在这方面收敛了不少。
比如给它一个实际上做不到的编程任务,o3 有将近一半的概率会编造一个看似合理的方案,GPT-5 的这个比例降到了 16.5%。在多模态基准 CharXiv 里,如果把所有图片都删掉,o3 依旧有 86.7% 的时候会“假看图说话”,而 GPT-5 只剩 9%。就连在真实的 ChatGPT 流量里,它的“胡编”比例也从 4.8% 降到 2.1%。
GPT-5 想做智能操作系统的底座
如果说 benchmark 是 GPT-5 的“脸面”,那背后 OpenAI 背后的动作就是想做智能操作系统的底座。
官方特别强调的是 GPT-5 是一个“一体化系统”。什么意思呢?
首先,引入 router ,可以自动调用,实时判断请求难度、所需工具、延迟预算,自动在 GPT-5(快)和 GPT-5 thinking(深思)之间切换;额度用完还能降级到 mini 版。
所以,用户不用再手动选模型,像操作系统的线程调度器,把“算力/思考时间”当资源自动分配。
同时,GPT-5 注重强任务分工,“Instruction following & agentic tool use” 模块大幅升级——模型能把复杂请求拆成多步、跨多个外部工具(浏览器、代码沙箱、数据库等)协同完成。
虽然 GPT-4o 也支持工具调用,但是 GPT-5 的任务拆解策略更强,容错性更好,不会卡顿。
安全机制被加入了产品化,成为平台内置的能力,而不只是模型被训练出的习惯。比如你问了一个危险的问题,之前 GPT 是拒绝回答,现在是部分回答你,解释原因并给出替代方案。
所以,这几个重要的 feature 把模型升级成了一个“可托管多任务、可控资源、安全可定制”的平台,从原来一个只会聊天的 chatbot,升级成一个一体化平台。
这次透露的 OpenAI 的野心太大了。
就在发布这篇文章前几分钟,我已经收到GPT-5的推送了,但是选择框里只有俩模型,其他模型全下线了??真的一场豪赌!
三方榜单结果
之前在 Arena 榜单上 GPT-5 以“summit”为代号测试,现在在所有领域排名第一。
Arena 官方连发了 4 条动态庆祝 GPT-5,不止如此,另一个老大难的榜单 ARC 也发布 GPT-5 的成绩了。这个榜单我们之前介绍过好多次,不了解的可以翻翻之前的介绍。
GPT-5 现已通过 API 平台向开发者开放
目前已经开放了 4 个版本:GPT-5、GPT-5 mini、GPT-5 nano 以及 Chat 专用版。
价格和之前高定价不同,竟然比 GPT-4o 还便宜。都是标准版,GPT-4o 输入 2.5$/M, GPT-5只有1.25$/M。
最后,现在可以选择不同的人格语音聊天,新增 4 个官方人格 _personas_(Cynic 毒舌、Robot 机器人、Listener 倾听者、Nerd),以前只能靠 prompt hack,现在把“性格”做成可插拔接口。为了方便以后企业品牌做定制。
接下来它会怎么落地,还得等真正在各种复杂环境里跑一阵子才能见分晓。但可以肯定的是,OpenAI 已经不满足于做一个模型供应商——它在搭的是一整套可托管、可编排、可塑形的智能基础设施。
而这次平台形态的试探能不能成,我们拭目以待。