南川同学 2025-08-08 08:58 浙江
北京时间2025年8月8日凌晨,当OpenAI的直播开始时,全世界的目光都聚焦于此。人们期待着GPT-5能带来又一次如同GPT-4诞生般的“iPhone时刻”,将人类带向通用人工智能(AGI)的新纪元。
然而,直播结束后,全球科技圈的核心阵地Hacker News上,弥漫的却并非狂热与崇拜,而是铺天盖地的失望、尖锐的批评和冷静的审视。一场本应是加冕典礼的发布会,为何意外“翻车”,甚至引发了对整个AI发展路径的集体反思?
这背后,是泡沫的破裂,还是黎明前最后的平静?
引言:一场被寄予厚望的“哑炮”
一场“翻车”的发布会:从图表乌龙到“伪科普”
1. “52.8% > 69.1%”:震惊业界的图表乌龙
2. “博士级AI”讲错高中物理:伯努利效应的“伪科普”
“雷声大,雨点小”:性能挤牙膏,AGI遥遥无期?
3. 边际提升的性能与趋同的竞争格局
4. “统一系统”的真相:是创新还是无奈之举?
价格屠夫的阳谋:商品化浪潮与OpenAI的商业焦虑
5. 极具竞争力的定价与商品化趋势
6. 激进的旧模型弃用与挥之不去的隐私担忧
结论:泡沫还是前夜?GPT-5引发的冷思考
01
引言:一场被寄予厚望的“哑炮”
“奇点将至”、“AGI就在眼前”、“世界将因此改变”——在过去的一年多里,围绕着GPT-5的猜测与期待,几乎达到了神话的级别。OpenAI的CEO Sam Altman本人也屡次在公开场合暗示其颠覆性的潜力,甚至在发布会前夜发布了一张“死星”的图片,将气氛烘托至顶点。
然而,当GPT-5的神秘面纱被揭开时,许多守在屏幕前的开发者、研究者和科技爱好者们却感到一阵错愕。期待中的革命性飞跃并未到来,取而代之的是一场充满了尴尬失误、宣传口号大于实质突破的发布会,以及一份性能提升“挤牙膏”式的技术报告。
在Hacker News上,这场发布会迅速成为被“群嘲”的对象。从一个令人啼笑皆非的图表错误,到一个经典的物理学“伪科普”,再到对模型核心架构的质疑,精英开发者社群用最挑剔的眼光,对GPT-5乃至当前AI技术浪潮进行了一次彻底的“冷水浴”。
02
一场“翻车”的发布会:从图表乌龙到“伪科普”
一场价值千亿美金公司的旗舰产品发布会,其严谨程度理应是像素级的。然而,OpenAI却用两个堪称“灾难级”的失误,亲手点燃了社区的质疑之火。
1. “52.8% > 69.1%”:震惊业界的图表乌龙
发布会直播中,一张展示GPT-5在编程基准测试(SWE-bench)上性能的图表,让所有人都睁大了眼睛。图上,代表GPT-5(52.8%准确率)的柱状图,其高度竟明显超过了代表旧模型o3(69.1%准确率)的柱状图。另一款模型4o的柱状图与o3一模一样高,标注的数字却是30.8%。
这个低级到令人难以置信的错误,瞬间引爆了Hacker News。一位用户评论道:“我为一个小部门10个人的汇报PPT都要反复检查好几遍,以避免这种错误。这可是一个估值数千亿美金的公司的核心产品发布会,太令人震惊了。”另一位用户则讽刺地写道:“也许这张图就是GPT-5自己生成的吧。”
尽管OpenAI事后在官网上修正了图表,Sam Altman也发文自嘲,但这起“乌龙事件”造成的伤害已经无法挽回。它暴露出的不仅仅是粗心,更是一种令人不安的浮躁与仓促。在社区看来,这要么是团队为了赶工而疏于检查,要么就是一种刻意误导,试图在视觉上营造出“巨大提升”的假象。无论哪种,都严重损害了OpenAI的专业信誉。
2. “博士级AI”讲错高中物理:伯努利效应的“伪科普”
如果说图表错误是“态度问题”,那么接下来的物理学演示,则直接暴露了GPT-5的“能力问题”。为了展示其“博士级”的专业知识和多模态生成能力,OpenAI演示了GPT-5解释飞机机翼升力来源——伯努利效应。
然而,GPT-5给出的解释,恰恰是流体力学领域最经典、最广为人知的“错误科普”——“等时通过理论”(equal transit time fallacy)。它声称,因为机翼上方弧度更长,空气必须以更快的速度流过,才能与下方的空气“同时”到达机翼尾部,由此产生的压强差形成了升力。
这个解释早已被NASA和无数物理教科书明确证伪。Hacker News上的物理学博士和航空工程师们立刻指出了问题:“这个理论连飞机为什么能倒着飞都解释不了。”一位开发者评论道:“这本应是一个完美的‘陷阱问题’,用来测试LLM能否分辨网络上流传的错误信息。结果GPT-5不仅没能识别,反而自信地将谬误复述了一遍。这对于一个声称要帮助人们解决严肃科学问题的AI来说,不是个好兆头。”
这场演示,戏剧性地将LLM的本质——一个基于海量文本数据进行概率预测的“随机鹦鹉”——暴露无遗。它不具备真正的理解和推理能力,只是在复述其在训练数据中见过的最常见、最“像正确答案”的文本模式,哪怕那是错误的。
03
“雷声大,雨点小”:性能挤牙膏,AGI遥遥无期?
抛开演讲的失误,让我们审视产品的核心——GPT-5的性能。这也是最让技术圈感到“不过如此”的地方。
3. 边际提升的性能与趋同的竞争格局
根据OpenAI公布的数据,GPT-5在各项基准测试上的表现,相较于上一代模型GPT-4o和o3,以及竞争对手Anthropic的Claude 4.1、Google的Gemini 2.5 Pro,并未形成压倒性优势。在备受关注的SWE-bench编程测试中,GPT-5的成绩是74.9%,仅比几天前发布的Claude Opus 4.1的74.5%高出0.4个百分点。
Hacker News上的一位热门评论者highfrequency一针见血地指出,一个有趣的趋势正在发生:随着时间的推移和模型的进步,顶尖AI公司模型之间的性能差距非但没有拉开,反而越来越小,性能表现日益趋同。
这一观察挑战了AI领域一个长期存在的核心叙事——“赢家通吃”的“硬起飞”(Hard Takeoff)理论。该理论认为,一旦某家公司的AI率先达到某个“AGI阈值”,它将能利用超凡的智能进行自我迭代和加速,从而在极短时间内与其他所有对手拉开无法逾越的差距,最终独占整个AI市场。这个故事是支撑OpenAI等公司千亿估值的关键。
然而,现实却是,GPT-5、Claude、Gemini、Grok等顶级模型,如今更像是在同一条S型增长曲线的平缓区段上“挤牙膏”。从GPT-3到GPT-4的惊人飞跃不复存在,取而代之的是百分之几的微小进步。这让许多人开始怀疑,当前基于Transformer架构和大规模数据投喂的LLM技术路线,是否已经触及了天花板?
4. “统一系统”的真相:是创新还是无奈之举?
另一个引发广泛讨论的技术细节是GPT-5的架构。OpenAI在系统卡中称其为一个“统一系统”(unified system),但紧接着的解释却耐人寻味:该系统包含一个处理多数问题的“快速模型”,一个用于解决难题的“深度推理模型”,以及一个实时“路由器”来决定使用哪个模型。
在开发者眼中,这根本不是一个真正的“统一模型”,而是一个典型的“混合专家模型”(Mixture-of-Experts)加上路由器的应用层封装。Hacker News用户fidotron评论道:“这看起来像是他们已经无力或不愿再耗费巨资去训练一个端到端的超大模型了,转而开发专门的子模型,并试图用另一个模型去掩盖这种分离。这通常是当端到端训练的性价比变得极低时,才会采取的策略。”
这种架构选择,被解读为OpenAI可能面临两大困境:一是训练成本已经高到难以承受;二是可用的高质量数据已经基本耗尽,继续扩大模型规模带来的收益正在急剧递减。这无疑又为“LLM技术路线触顶”的论点增添了新的佐证。
04
价格屠夫的阳谋:商品化浪潮与OpenAI的商业焦虑
尽管性能上未能带来震撼,但GPT-5在商业上的举动却足够激进,甚至透露出一丝焦虑。
5. 极具竞争力的定价与商品化趋势
GPT-5的API定价极具攻击性:输入价格为每百万token 1.25美元,远低于Claude Opus 4.1的15美元。这一举动被视为向竞争对手发起的“价格战”,意图通过成本优势巩固市场份额。
然而,Hacker News上的远见者nerdix提出了一个更深刻的观点:这可能预示着整个大模型行业的“商品化”(Commoditization)浪潮即将来临。他预测,随着技术成熟和开源模型的追赶,未来“足够好”的AI模型将能在消费级硬件上本地运行。届时,用户何必为云端那一点点边际性能的提升支付高昂费用呢?
“云服务商还能靠托管赚钱,但一个主营业务是开发模型的公司呢?如果不找到新的增值方式,我不确定他们能否长久。”这条评论引发了广泛共鸣。当技术壁垒被逐渐抹平,成本和易用性将成为最终的战场。
6. 激进的旧模型弃用与挥之不去的隐私担忧
伴随GPT-5发布的,还有一个让许多开发者措手不及的决定:OpenAI将弃用包括GPT-4o、o3在内的所有旧版本模型。所有API用户和ChatGPT用户将被强制迁移到GPT-5系列。
表面上看,这是为了简化产品线、集中资源。但许多用户将其与OpenAI近期强制推行的API用户身份验证政策联系起来。此前,使用旧模型API无需进行真人身份验证,而GPT-5 API则强制要求用户提交身份证件和面部视频扫描。这一举动被批评为“一石二鸟”的策略:既通过弃用旧模型将用户驱赶至新平台,又顺势完成了对所有开发者的KYC(了解你的客户)审查,这引发了社区对数据隐私和平台控制权的极大担忧。
05
结论:泡沫还是前夜?GPT-5引发的冷思考
GPT-5的发布,最终没有成为一场欢呼AGI降临的盛宴,反而变成了一面映照出AI行业集体焦虑的镜子。
从技术上看,LLM的S曲线似乎正在进入平缓期,单纯依靠扩大规模和数据量的方法可能已难以为继。真正的AGI,或许需要等待下一个完全不同的架构性突破。
从市场来看,竞争正从“谁更智能”转向“谁更便宜、更好用”,领先者的护城河正在变浅,商品化的趋势不可阻挡。
从心态上看,科技界对“AI救世主”式的宏大叙事正逐渐脱敏,取而代之的是更加务实、也更加挑剔的审视。
当然,将这次发布会的争议完全归结为“AI泡沫破裂”或许为时过早。正如一些评论所言,即便只是“炼油”式的优化,能将现有技术打磨得更可靠、更便宜、更易于集成,其本身就是一项巨大的工程成就,同样能催生无数创新的应用。
GPT-5的发布,与其说是一个答案,不如说它提出了更多、也更尖锐的问题。我们是正处在一个技术范式的极限边缘,还是在为下一次的巨大飞跃积蓄能量?Hacker News上的这场大讨论,没有给出最终的答案。但它至少清晰地表明:硅谷的精英们已经从最初的狂热中冷静下来,开始用更成熟、更理性的目光,重新丈量我们与真正的人工智能之间的距离。而这段距离,似乎比许多人一年前想象的要遥远得多。