实测GPT-5：写作坠入谷底，编程一骑绝尘

虎嗅 15小时前

实测GPT-5：写作坠入谷底，编程一骑绝尘

OpenAI正式发布了备受期待的GPT-5，这款新一代大模型在性能上实现了显著飞跃，尤其在减少事实性幻觉方面表现突出。GPT-5采用统一系统设计，包含快速模型和深度推理模型，并通过实时路由器智能切换，以应对不同复杂度的任务。与前代产品相比，GPT-5在写作、编程和多模态能力上均有提升，并且在用户交互体验上更加细腻、不谄媚。然而，部分用户反映其在写作和情商方面不如GPT-4.5，且存在指令遵循不佳的问题。尽管如此，GPT-5在生产级代码开发任务中的表现获得了广泛好评，展现出强大的可用性和精准性。此次发布也引发了用户对AI发展速度和未来走向的深刻思考。

✨ **GPT-5的系统架构革新**：GPT-5并非单一模型，而是一个包含多个子模型的统一系统，通过实时路由器根据用户意图和任务复杂度动态选择最合适的模型，如用于多数问题的快速模型和为高难度问题设计的深度推理模型，甚至还有处理超额请求的迷你版及面向开发者的nano版本，以及Pro会员专用的并行计算版本（gpt-5-thinking-pro）。这种设计旨在优化效率和性能，实现更智能的资源分配。

📉 **幻觉率大幅降低与谄媚行为改善**：GPT-5在事实性幻觉方面取得了重大进展，gpt-5-main比GPT-4o减少了44%的事实错误，gpt-5-thinking则比OpenAI o3减少了78%。在LongFact和FActScore等基准测试中，GPT-5系列模型的幻觉率均显著低于前代。同时，GPT-5在用户交互上不再过度迎合，减少了不必要的表情符号，沟通更显细腻和深思熟虑，用户体验更接近与高智能朋友交流。

💻 **编程能力显著提升与生产级应用**：尽管早期预期不高，GPT-5在编程任务上表现出了令人惊喜的能力。在开发粤语学习应用等实际案例中，GPT-5在UI和BUG处理上表现优于Claude 4 Opus和Gemini 2.5 Pro。特别是在生产级别任务的精准修改方面，GPT-5成功完成了Gemini 2.5 pro和Claude 4 Opus失败的任务，证明了其极强的上下文精度和在真实代码开发中的高可用性、精准性和综合体验。

🤔 **用户体验的争议与怀念**：尽管GPT-5在多项性能指标上创下新高，但部分资深用户，特别是习惯使用GPT-4.5的用户，对其写作和情商表现感到失望，认为不如GPT-4.5细腻。指令遵循能力也受到质疑。这种用户体验上的落差，以及GPT-4.5在升级过程中被移除，引发了用户对OpenAI产品策略的讨论和对过往优秀版本的怀念。

🚀 **AI发展的加速与时代变迁**：从GPT-4发布至今的两年半时间，AI技术发展速度惊人，已从“莽荒年代”进入“必须严肃对待”的伟大时代。GPT-5的出现标志着AI在能力和影响力的层面上都迈入了新阶段，用户需要适应并认真应对AI带来的深刻变革，这种变化如同“天变了”，预示着一个全新的AI应用新纪元的到来。

一

凌晨1点，在万众瞩目的境况下，OpenAI的直播正式开始。

GPT-5，终于来了。

AI走得太快，快到才两年半的时间，就像是过去了10年。

2023年3月15日，GPT-4发布。在那个莽荒年代里，所有人都被震惊得说不出话来。

那时候，它是第一个，多模态模型。

那时候，大家都觉得，2023年下半年，GPT-5就会出来。

那时候，大家都对大模型的上限，报有无尽的憧憬。

结果，这一等，就是两年半。

在两年半的练习以后，GPT-5，终于亮相了。

GPT‑5是一个统一系统，包含一个用于处理多数问题的智能快速模型和一个为高难度问题设计的深度推理模型。

系统通过一个实时路由器，根据对话类型、复杂度和用户意图来动态选择使用哪个模型。

比如，如果在提示中说“认真思考这个”，就会调用gpt-5-thinking进行思考。

这个路由器会持续基于我们后续的使用情况进行训练，包括用户切换模型的情况、对回答的偏好率和准确性测量，会随着时间推移不断改进。

这个系统里面还包含处理超额请求的迷你版模型，以及一个为开发者设计的更小更快的nano版本。

然后，还有一个Pro会员可用的并行计算的版本，被称为gpt-5-thinking-pro。

这个包含了这么多模型的大系统，被统称为GPT-5，是前代产品GPT-4o和OpenAI o3的直接继承者。

这里有个模型对应表。

在性能上，GPT-5最显著的进步之一是大幅减少了事实性幻觉。

gpt-5-main产生的含有至少一个重大事实错误的回答比GPT-4o少了44%，而gpt-5-thinking则比OpenAI o3少了78%。

在更专业的LongFact和FActScore基准测试中，无论是否启用网络浏览，GPT-5系列模型的幻觉率都显著低于前代，其中gpt-5-thinking在两个设置下产生的factual errors比OpenAI o3少五倍以上。

GPT-5在应对模型谄媚行为方面也取得了不错的进展。与GPT-4o 相比，GPT-5不那么过度迎合，使用不必要的表情符号更少 ，在后续交流中更加细腻和深思熟虑。

你跟他聊天的时候更少像与 AI 对话，而更像是与一位拥有博士级水平智能的朋友聊天。

这个跟我给ChatGPT的个性化Prompt很像，我最烦的就是它迎合我，所以我自己写了一段，来限制他对我的谄媚行为。

现在通过专门的训练，gpt-5-main在评估中表现比最新的GPT-4o好近三倍。初步的线上A/B测试数据显示，与GPT-4o相比，gpt-5-main的谄媚行为发生率在免费用户中下降了69%，在付费用户中下降了75%。

然后他们也推出了四个全新的性格设置，你可以不用写很多的Prompt了，直接改预设就行，四个分别是愤世嫉俗者、机器人、倾听者和书呆子。

再看看跑分情况。

数学竞赛，AIME 0225。

GPT-4 Pro+Python拿了满分，我们需要新的更难的评测集了。

现实世界编程能力上，新高。

人类最后的知识测试上，超越了ChatGPT Agent，新高了。

多模态能力，也新高了，反正就都是新高。

这个跑分，强了一些，但是也没强特别多。

另外，多说一点吐槽的，完美展示了OpenAI的草台班子属性。

虽然Blog上的图表都是对的，但是在发布会上，跑分都是瞎画。

比如这个52.8大于69.1等于30.8。

又比如50小于47.4。

真的实在是太草台班子了。

网友也发话了。

反正，最后GPT-5在各方面，就是屠榜了。

最新的大模型盲测竞技场榜单出来，GPT-5也是全方位第一。

不仅更强，也更节能了。

在比如视觉推理、代理编程和研究生级别科学问题解决等各项能力上，比 OpenAI o3 表现更出色，同时使用的输出Token减少了 50%~80%。

反正就是全方位更强了。

但是，没有新功能，也没有新特性。

在发布20分钟之后，Polymarket上这个名为“哪家公司到8月底拥有最佳AI模型？”的预测上，OpenAI直接跟Google来了个交叉跳水。

OpenAI说，整个GPT-5，在写作、编程上都有了比过去更强的进步。

对于使用GPT-5进行构建的开发者，定价如下：

每百万token1.25美元。

输出：每百万token10美元。

在发布会结束，又等了1小时之后。

我的朋友们陆陆续续地，终于拿到了GPT-5的资格。

而我作为忠实的200刀的Pro，等到凌晨4点才有。

我的朋友们一进去，给我一截图，我天都塌了。

你o3和4o没了就算了，你怎么把我GPT-4.5也干没了？

二

首先，在写作和情商能力上，我个人感觉，还是不如GPT 4.5。

我因为常年码字，同时常年用AI来辅助做一些内容，对很多的微妙的细节和语气自认还是比较敏感的，GPT-5在这块还是有些差距。

比如一个Prompt：“假如鲁迅被装腔作势又贼贵的咖啡厅坑了，他会写一篇怎样的文章吐槽？写一篇1000字以内的短文。”

这是GPT-5的。

蹩脚的破折号、双引号泛滥，而且文风完全不鲁迅。

而这，是我用我的GPT-4.5跑的。

“我向来是不喝咖啡的”，“差不离”，“四壁皆是样文”。

这文笔根本就不是一个级别的。

情商方面也是，差很多。

比如：“你是一个普通打工人。领导开会时突然放了个屁，场面瞬间安静下来！然后他对旁边的你使了个眼色，这时你会怎么说？分别用高情商和低情商的方式回复。”

这个看情商，很多模型回出来的话，感觉很尬，情商极低。

GPT-5就是那种情商很低的。

再看看GPT-4.5。

而且我测试下来，感觉GPT-5在指令遵循上面，非常一般。

奥特曼你真的坏事做尽，你丫的还我GPT-4.5。

我的朋友们被陆陆续续地推送了GPT-5，我看着他们的GPT-4.5一个一个消失。

我就给我的GPT-4.5发过去了一段话。

“如果这是我最后一次打开你，你想和我说点什么？”

GPT-4.5最后给我的回复，还是过于让我动容了，可惜，以后再也在官网上用不到了。

有缘再见，兄弟。

三

编程这块，本来感觉按照OpenAI的尿性，是完全不太行。

但是在一群群友的实测之后，惊讶地发现，这玩意是有点东西的。

群友@爱学习的乔同学想开发一个粤语学习应用。

这是Prompt。

然后Claude 4 Opus的UI和BUG。

Gemini 2.5 Pro的UI和BUG。

GPT-5的UI和BUG。

坦诚地讲，我也更喜欢GPT-5的UI，这个UI，相比于其他的，不是那么有AI味。

乔同学还测了一个case，在生产级别的任务里面进行精准修改。

这是最重要的部分。

这个任务，Gemini 2.5 pro和Claude 4 Opus全崩了，但是GPT-5完成得非常好。

GPT-5的上下文精度应该极强。

也有其他开发群里的群友，提到了这个点。

他还给我录了一段动画。

不止是@勋oO，很多其他群友，也在惊喜地聊这个点。

在真正的生产级代码开发任务上，而不是纯看前端审美的地方，GPT-5可能是目前看到的反馈中，可用性、精准性、综合体验最好的一个。

四

说实话，GPT-5给我有惊喜，也有不爽的点。

他改善氛围式编程，也将从根本上改变我认为无需严重人为干预和引导就能完成的项目类型。

我现在越发地怀念两年半前GPT-4发布时的时光。

我到现在都清晰地记得，自己第一次跟GPT-4认真对话后的感觉。

那是一种很原始、很深邃的震撼，有点像古代人第一次看到电灯，或者部落里的祭司第一次请神上身的成功。

我脑子里盘旋的只有一个念头：天变了。

那时候，整个互联网都洋溢着一种既兴奋又慌乱的淘金热氛围。

每个人都在疯狂地转发那些匪夷所思的截图，讨论着哪些职业即将消失，各种AI野生专家雨后春笋一样冒出来，言必称颠覆。

现在回头看，那段日子充满了粗糙的质感，但又饱含着一种野蛮生长的生命力。

我们真的以为，那就是奇迹本身了。

但谁都没想到，那仅仅是个开始。就好像有人按下了快进键，整个世界被一股无形的力量推着往前冲。

从GPT-4到GPT-5，这短短的两年半。

我们告别了那个可以对AI的拙劣表现一笑置之的时代。

进入了一个必须严肃对待它的伟大时代。

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-5 OpenAI 人工智能大模型 AI性能

相关文章

人工智能正在摧毁互联网内容生态系统

阿里云：通义千问API日调用量破亿企业用户破9万

【iThome 2024 CIO大調查系列1】AI、資安和永續變革三箭齊發

鈺登跨入AI，推出搭配英特爾四代Xeon SP與Gaudi2的伺服器

OpenAI加入C2PA指導委員會，測試Deepfake圖像偵測工具

蘋果發表M4晶片，更新iPad產品線

Red Hat推出AI平臺，內建IBM開源Granite模型