北京时间8月8日的凌晨,GPT-5正式发布。
抛开内容不说,这个日子就很符合我们的品味,非常吉利。整个发布会内容非常丰富,展示了各种跑分评测,还有一些看起来很炫,但在日常生活中实用性不高的小程序,同时也分享了对开发者等专业群体非常有价值的案例。
不管我们如何评价ChatGPT,这个产品在人工智能历史上的地位,肯定是无法撼动的,就跟iPhone在智能手机发展史上的地位一样。但是从另一个角度来看,现在的智能手机,无论是苹果还是安卓,每个版本之间,也已经几乎没有跨越台阶式的进步了。
ChatGPT也是如此,GPT-1在2018年6月发布,GPT-2在2019年2月推出,GPT-3在2020年问世,GPT-4的发布就到了2023年。
GPT-4相比前一代的GPT-3.5,有几个跨时代的进步:
第一,它具备多模态识别图片能力;
第二,上下文处理长度从大约4000个token增加到12万个;
第三,生成的文本更加人性化,也就是更像人类写的东西,而之前的GPT-3.5版本还有非常强的机械感。
正因为从GPT-3到GPT-4的能力,是一次跨越式的能力提升,因此在过去两年中,无论是从业者还是普通用户,内心中都怀有一个期待,那就是GPT-5将会是什么样子?
我总结了八条,我们依次看看。
GPT-5统一命名权
ChatGPT用户能感受到的巨大变化,是GPT-5统一了命名权。
因为在之前,如果打开ChatGPT,里面光模型就有4o、o1、4.1、4.5、o3、o3 Pro等不同选择,每个模型下面还有自己自定义的使用场景,比如有些适合推理,有些能画图,还有一些在写作方面表现得很好。
但是,不管是新用户,还是每天都在使用的重度用户,在做任务之前都要纠结一下,我到底用哪个模型更好?用完之后,内心也会有强烈的不安全感,那就是“万一其他模型的表现更好呢?”
这次OpenAI用统一的GPT-5取代了之前的多个模型版本,在内部提供了一个类似“路由器”的机制,用来智能处理用户的请求。
举个例子,它会自动识别用户的需求,根据任务的复杂性进行优化处理。例如,如果你问“北京的天气怎么样”或“根据北京今天的天气,应该穿什么衣服”,默认模型会快速回答,不需要经过复杂推理。
但是,如果你问:“这个周末要去北京玩一天,如何避开下雨和堵车时间段,并给出两个适合家庭出行的方案”。这种问题就需要调用更强的推理模型来处理。
再进一步,如果你提出的是一个更复杂的任务,比如:“为一场五万人的大型音乐会做极端天气应急预案,并且参考我上传的市政指南、场地方合同和保险条款,输出一份应急预案指挥手册,要求里面包括角色、流程、话术和待办清单”,这种超复杂问题就需要使用更强大的Pro版本来处理了。
大家千万不要小看统一名字的价值,虽然很多重度用户常常质疑为什么不能自己选择o3版本来推理,为什么不能自己选择4.5版本来写作,但对于ChatGPT这样一个每周活跃用户已经达到7亿的产品来说,降低用户使用时的决策难度,是一件非常重要的事情。
这就像在高中学到秦朝历史的时候,我曾经对“把秦始皇统一度量衡这件事情的地位放到这么高”很不理解。
后来当我做了产研工作之后,才深刻地体会到不同团队、不同公司统一话语体系,技术上统一接口语言是一件多么重要的事情。
顺便说句题外话,不久前我在一本书中看到,秦始皇并不是公元前221年统一六国后,才一声令下颁布诏书统一度量衡的。
从湖南发掘出的一枚秦简显示,在统一六国前一年,秦国就已经在自己新占领的地区开始推行标准衡器,由地方官员一个县一个县地落地实行了。
在我们公司五层,有一间会议室的外墙上写着田溯宁老师对我们启发很大的一句话,就是“把复杂留给自己,把简单留给用户”。
对于GPT-5来说,背后的AI智能决策体系一定非常复杂,但这正是它的使命。对于用户来说,最重要的是能不能用最短的时间,解决自己的任务。从这个角度看,统一之前混乱的模型,是一个无论对内还是对外都能降低干扰的选择。
各项指标霸榜,但这并不重要
第二条,各项指标霸榜,但这并不重要。
GPT-5的编程能力相比前代,有极大的提升。现在大部分模型发布的时候,总要秀自己在各种测试里的排名。
但我认为这种测试排行意义不大,就像我们找一个同事来解决问题时,根本不会关心他当年是不是河南省的高考状元,也不会关心他在大学里有没有挂科,我们只会关心手头的这个活儿他能不能干好。
不过从社交媒体和很多朋友的测试来看,在编程这个领域上,无论是准确性、速度还是处理复杂任务的稳定性,GPT-5都比之前的o3版本有非常大的提升。
如果你不是做互联网行业的,或者不是做技术工作的,可能会很疑惑:为什么这么多AI工具,都如此关注AI编程?为什么今年这么多AI编程以及周边产品如此火爆?为什么每个大厂都在做自己的AI编程产品?
我来分享一下为什么大家都在卷AI编程。
首先,对于AI能力的发展来说,需要有标准化的任务,来检验AI到底能不能处理复杂任务,而编程就是这种任务。结果是不是合格一目了然,代码能运行能完成任务,那么这个AI的能力就是强大的。
哪怕AI非常努力,写了几万行代码,但如果最终不能运行,或者无法实现需求,那么这个AI的能力就是不足的。
其他类型的任务都没有编程任务这么简单粗暴。例如写作,有很多技术团队做自己的产品宣传时,会这么说:“我们的产品不仅仅是写一篇几千字的文章,我们还能写代码、画图、做视频。”
其实,他们低估了“写文章”的难度。例如,同样是三千字的文章,高中生写的和莫言写的,怎么可能难度一样呢?而且每个人,对“什么是好文章”其实是没有共识的。
所以写文章、画图、做视频这些要求个人品味的技能,很难像AI编程一样进行标准化。例如,在这次GPT-5的发布会上,展示了一个让AI构建学习法语APP的项目,最终的完成度非常高,可以自定义词汇、修改界面设计,还有标准发音可供练习。
发布会上还展示了一个任务:输入某公司的大量数据,模型在5分钟内创建出一个可视化的财务数据看板。这在传统的数据研发流程中,至少需要大半天的时间,还得是那种经验非常丰富的数据工程师才能完成。
顺着这个方向发展,至少有一个趋势改变是会发生的。那就是各个岗位的人,在AI的帮助下,都能顺手写一个能解决精确任务的小工具,例如批量处理一大批复杂表格,或让AI每次直播后对每分钟的数据进行详细复盘。编程将不仅仅是程序员的专属技能。
当然,GPT-5虽然在编程方面进步很大,但大部分测试过的人仍然表示,整体水平还没有赶上它的竞争对手Claude,还需要努力。
幻觉更低
第三条,幻觉率大幅度降低。
经常使用AI的同学,一定有被AI幻觉坑过的惨痛经历。特别是随着AI能力的提升,如果不是特别有警惕性或是特别资深,AI的许多幻觉回答会比真实答案更具迷惑性。
而这次OpenAI特别投入大量精力进行优化。例如,在网络搜索时,GPT-5出现幻觉或事实错误的可能性比GPT-4o版本低45%,而在思考推理时,GPT-5比o3版本包含事实错误的可能性低80%。
当然,除了回答中大幅度减少事实错误之外,GPT-5还会进行判断,对于一些明显无法完成的任务,它会明确表示自身能力的局限性和无法完成的任务。
这个迭代非常必要,因为之前版本的ChatGPT有一个问题,就是太听话了。它会默认无条件服从你,无论你要干啥,它都会先认为自己能干,然后去找办法,找不到的话,就开始胡编乱造。
但其实,如果能清晰地告诉用户,自己哪些任务能完成,哪些任务可能需要其他工具或者是人类自己去操作,这更符合未来人机协作的共同发展要求。
此外,今年OpenAI还撤回过GPT-4o的一次迭代版本,原因就是这个版本上线之后,发现AI对用户表现得非常谄媚,用过于热情甚至让人尴尬的语言去夸奖用户,从提问的问题到观察的角度,像是影视剧中阿谀奉承的奸臣。所以这次的GPT-5特别指出会降低之前版本的亲切度,一些不必要的表情符号也会减少。官方博客上提到,使用GPT-5更像跟一位拥有博士级智力水平且乐于助人的朋友聊天。
通过这几个迭代可以看出,OpenAI想要追求的是,AI和人类进行高质量和有建设性的对话。因为在这个前提下,幻觉、过度承诺和谄媚巴结,都会让人类用户对AI产生不信任的感觉。而这次GPT-5的很多迭代,其实在提高可靠性上下了很大的功夫。
API使用成本更低
第四条,对于开发者来说,这种通用模型的旗舰版本一定是非常贵的,想用上强大的功能,就要付出更多的费用。不过,这次GPT-5显著降低了API的使用成本,输入100万token的内容只需要1.25美元,输出同样体量的内容则需要10美元。
没有对比就没有伤害,几个竞争对手的旗舰模型,都要远远超出这个费用。例如最贵的是Claude Opus4.1,输入是15美元,输出是75美元,这个就是天价了。谷歌Gemini 2.5 Pro输入达到了2.5美元,输出15美元。甚至连OpenAI家自己的老一代模型,都要比这个更贵,所以这也能看出来,OpenAI想用GPT-5的性价比在企业市场跑马圈地。
要知道上半年,互联网女王Mary Meeker发布的《AI趋势报告2025》中,展示了一组冷热自知的数据。从训练模型这个角度来看,顶级模型的训练成本8年内飙升了2400倍,从千万美元级别跃升到了10亿美元级别。但从使用角度来看,模型推理成本在两年内暴跌99.7%。更直观点的说法是,两年前输出100万token,企业成本需要100美元,而到了2025年,同样的任务只需要0.3美元,所以Meeker把这个叫作“人类技术史上前所未有的效率革命”。
连图表都出错,谁还能信任AI?
第五条,来自顶尖精英团队的低级槽点。
聊完GPT-5的亮点,现在也该谈谈槽点了。因为在发布会上,出现了一个不可思议的超低级错误。那就是在展示GPT-5在编程能力测试中,不经过思考的GPT-5版本的准确率是52.8%,而前一代的o3版本是69.1%,但是显示在柱状图上,52.8%竟然比69.1%显得更高大威猛。而就在同一张图上,o3的69.1%和4o的30.8%,柱状图的高度居然是一样的。
这两个低级失误,在咱们国内基本上是初中生都不会犯的错,但是现在却出现在一个全球顶尖AI团队最重要的产品发布会上。要知道他们中的任何一个人,要被Meta的扎克伯格挖走的话,年薪都能达到上亿美金。
看到这里的时候,我真的觉得有些恍惚。这并不是顶级AI公司第一次出现偶然失误了。之前在马斯克的xAI发布会上,也同样出现过图表的失真问题。在全球这么高关注度的一场发布会上,他们内部真的完全没有人去复核一下所有内容吗?甚至他们自己为什么没有让GPT-5来审核一下PPT呢?
这让我回忆起小学时班主任常对我说的一句话:“作为学生,笔都能忘带,这跟战士上战场忘记带枪有什么区别?” 也难怪有网友在X上,直接质疑OpenAI团队说:“连图表都出错,谁还能信任你们的AI呢?”
不要低估长期价值
第六条,不要低估GPT-5的长期价值。
我刚才说了低级失误的槽点,包括网上也有大量的文章吐槽GPT-5这次发布,并没有跨时代的进步,OpenAI似乎已经黔驴技穷了。
我特别能理解大家的期待,就是GPT-5已经预热和宣传了很长时间,我们都希望看到AI能够有更耀眼的表现。但是我想跟大家聊一个备受瞩目的运动,那就是男子百米赛跑。
我们知道,现在百米赛跑的奥运会纪录,是2012年牙买加飞人博尔特在伦敦创下的,成绩是9秒63。世界纪录的创造者也是博尔特,他在2009年8月16日,第12届田径世锦赛上创造的9秒58,至今无人打破。
我为什么要说这个运动呢?因为追溯到第一届雅典现代奥运会,1896年,男子100米的首个奥运冠军是美国选手托马斯·平克,他的夺冠成绩是12秒,预赛中跑出了11秒8。
这个成绩如果放在现在,在高中运动会上夺冠都比较有难度,但这就是人类当时的最快速度纪录。甚至在参与决赛的5个人中,只有他采用了蹲下起跑的方式,而其他人起跑姿态各种各样。托马斯·平克曾被人耻笑的起跑方式,在这一百年来,被继承下来并且一帧一帧地打磨。我记得当年刘翔最火的时候,他每场比赛的起步阶段,都是以0.1秒的刻度进行分析的。
说回百米赛跑,从1896年到1968年,人类跑得最快的一批人,都是为了跑进10秒大关而奋斗的。一直到1968年的墨西哥奥运会,吉姆·海因斯成绩为9秒95,这是人类第一次突破10秒大关。在最近结束的2024年巴黎奥运会上,诺亚·莱尔斯的成绩为9秒79。
你一定很好奇,这个百米赛跑和AI有什么关系?我想说的是,其实几十年前,不同奥运会之间的成绩提升,都是以半秒为刻度的。例如,1956年是10秒5,而1960年和1964年都是10秒,中间相差半秒。
而最近三届的成绩:2016年9秒81,2020年9秒80,2024年9秒79,中间的差距仅为0.01秒。提升虽微小,但我们必须承认,这批运动员放到几十年前,都是秒杀级的存在。
生成式人工智能发展的时间更短。我们更熟悉的真正意义上的AI工具,是2022年11月30日上线的ChatGPT,到现在还不到三年。所以早期的版本能力提升,就好比百米10秒以前的比赛,看起来提升幅度很大,实际是因为之前的水平较低。
而这次GPT-5的很多提升之所以不引人注目,是因为我们已经用了太多强大的AI工具,因此过高的期待可能影响我们的判断。别过早下判断,让子弹再飞一会儿。让我们再观察一段时间。
别陷入“谁更厉害”的争论
第七条,别陷入“谁更厉害”的争论。
我已经在不少群里看到了观点完全对立的争论,有人夸就有人骂。其实,对于咱们同学来说大可不必,不管现在你能不能用上ChatGPT的最强模型,一定要相信再过三到六个月,ChatGPT拥有的功能或者交互,一定会成为很多AI产品的标配。例如,过去的多模态、生图、推理模式,在AI发展史上都是里程碑。
那么,咱们国内的AI产品也会很快对齐,并且在很多方面可能进行超越或反杀。例如,ChatGPT率先推出了推理模式,但是把推理模型发扬光大的,却是我们的DeepSeek。
所以,我们可以在GPT-5这次迭代的功能上,去思考一些问题,比如:随着技术提升十倍,难度和费用降低十倍,半年后我可以在工作或生活中如何应用这些能力?
我看到幻觉率降低的处理方式以及GPT-5的API成本,就马上知道了Get笔记可以在哪些方面做准备,等待国内基础大模型的跟进。
狠起来连自己都打
第八条,我让GPT-5完成一个小任务,观看自己的官方发布会内容,并从一个路人的视角进行毒舌吐槽,完全不用顾虑AI的情绪。
我给你读几条GPT-5对自己发布会的吐槽,都是采用了“官方”和“路人”这两个角色来完成的对话。
官方:我们是最聪明,最快,最有用的模型。
路人:聪不聪明不知道,反正你最会推销自己。
官方:强大语音升级,更自然,更人性化。
路人:一开口就像广播主持人,安慰我就像在朗读鸡汤文。
官方:多模态能力全面升级,图像、语音、视频都能理解。
路人:你是能看图,就不能看我发的图,你是能听,却听不懂我在语音里骂你。
官方:Pro用户享受GPT-5,Team企业版紧随其后。
路人:谢谢你告诉我,普通用户就该排队,等到下辈子。
官方:我们会持续优化每个模块,全面提升体验。
路人:体验是全面的,但问题也是全面的——啥都升级,啥都没变。
这才叫狠起来连自己都打,甚至GPT-5还贴心地问我是否要将内容制作成卡片海报,以便于发布在朋友圈或小红书。
所以,这也让我陷入了哲学问题一样的迷茫中。如果说GPT-5强大,这些吐槽显得在理;如果说GPT-5不强大,这些吐槽也都十分犀利。
最后,再说个最让人无语凝噎的功能更新。
在最新更新的ChatGPT手机App里,增加了一个设置选项,叫“重点色”。里面默认灰色,还提供了橙色、黄色、绿色、蓝色、粉色五个免费颜色。每月20美金的Plus会员才能用紫色,每月200美金的Pro会员才能用黑色。
那什么叫重点色呢?我只发现了两个地方会变化,一个是和AI对话时的气泡颜色,会变成你设置的颜色,另一个是底部工具栏的语音按钮会变色。也就是通过对话气泡颜色来区分会员等级,说实话,我作为一个每月掏200美金的冤大头会员,差点被这个功能气哭了。20年前,我在QQ秀上充十块钱,还要送我一套杀马特时装呢,不会仅仅就给我送个定制颜色的口罩。
在这方面,ChatGPT还有挺多东西要学。