“最强模型”GPT-5发布后评价褒贬不一奥特曼回应

Cnbeta 10小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

OpenAI最新发布的GPT-5模型在万众期待中亮相，然而其表现却引发了用户和业界的广泛讨论。尽管OpenAI宣称GPT-5在编程和复杂问题处理上能力显著提升，甚至能达到“博士级专家”水平，但不少早期使用者表示，相较于前代模型，GPT-5并未带来“重大飞跃”，且在编造信息、基础数学和拼写方面仍存在问题。更值得关注的是，GPT-5的性能似乎与用户查询内容和系统自动切换模型有关，有时甚至会出现“迟钝”现象。OpenAI CEO萨姆·奥特曼已承认系统存在技术故障，并承诺将进行改进和提高透明度。在AI竞争日益激烈的当下，GPT-5的表现以及用户如何感知其价值，仍是需要时间检验的关键。

🚀 **GPT-5性能褒贬不一，用户体验存在争议：** OpenAI CEO萨姆·奥特曼曾大力宣传GPT-5，称其性能大幅提升，能达到“博士级专家”水平。然而，发布后用户反馈不一，部分用户认为其“性能出众”、“偶尔令人惊艳”，但也有用户表示与前代相比“没有重大飞跃”，且在编造信息、基础数学和拼写方面仍存在问题，甚至有用户认为其写作能力不如前代。

💡 **系统自动切换模型导致性能波动：** GPT-5的设计允许其根据查询内容自动切换不同复杂程度的模型，以优化计算资源。这种机制导致用户并不总能调用到最强大的版本，从而影响了用户体验。例如，在测试中，GPT-5在被提示“仔细想一想”后，才给出正确答案，这表明其性能会因模型切换而产生波动。

🛠️ **OpenAI承认系统故障并承诺改进：** 针对用户反馈的“迟钝”和表现不佳问题，OpenAI CEO萨姆·奥特曼承认系统存在技术故障，表示“昨天自动切换器出现故障，大半天都无法正常工作”。他承诺从发布当天起，GPT-5会“显得更聪明些”，并将采取措施提高系统的“透明度”，以解决用户对模型响应的不满。

📈 **GPT-5在AI模型竞争中的地位待考：** 在AI模型竞争激烈的背景下，GPT-5的实际表现备受关注。虽然在某些排行榜上登顶，但在另一些基准测试中，它却落后于竞争对手。用户对AI系统的价值评判需要更长的时间来积累和验证，短期内难以定论其优劣。

🤔 **用户对AI写作能力和透明度提出质疑：** 许多用户在社交论坛上表达了对GPT-5写作能力不如前代的看法，并对无法掌控具体由哪个模型响应查询感到不满。这种对AI写作质量和系统透明度的担忧，凸显了用户对AI模型可控性和可理解性的需求。

据彭博社报道，几个月来，OpenAI CEO萨姆·奥特曼(Sam Altman)一直在大力宣传GPT-5的性能，把它的发布描绘成了公司历史上的关键时刻。但是在GPT-5发布后的24小时内，这款新模型收到了褒贬不一的评价。

在周四的发布会上，OpenAI声称GPT-5在编程和处理复杂问题的推理能力方面更胜一筹，并表示它已先进到足以让聊天机器人ChatGPT达到“博士级专家”的水平。

令人失望

虽然一些早期使用者称赞了该模型，但也保留了意见。开发者西蒙·威利森(Simon Willison)在博客文章中写道，“它是我目前最喜欢的新模型”，称其“性能出众”，“偶尔令人惊艳”，“但与之前的版本相比并没有重大飞跃”。

在各大社交媒体平台上，ChatGPT用户对GPT-5持续存在编造信息、搞错基础数学和拼写问题的情况表示失望。本特利大学数学系副教授诺亚·詹西拉库萨(Noah Giansiracusa)认为，这次升级“令人失望”。他指出，虽然GPT-5“确实有些改进”，但“改进幅度比我期望的要小得多”。

奥特曼

部分用户的负面反应，或许源于他们对技术底层运作机制的误解。与OpenAI此前发布的模型不同，GPT-5会根据查询内容自动切换不同复杂程度的模型。这种设计虽然能优化公司的计算资源配置，但也意味着用户并不总能调用到最强大的技术版本。

例如，在一次测试中，当被问及单词“blueberry”中字母“b”出现了多少次时，GPT-5最初给出了“三次”的错误答案。但当被提示“仔细想一想”后，GPT-5似乎切换到了更高级的推理模型，给出了正确答案。

奥特曼：系统出故障

周五，奥特曼对部分用户反馈作出恢复，承认系统存在技术故障。“从今天开始，GPT-5会显得更聪明些，”他表示，“昨天自动切换器出现故障，大半天都无法正常工作，导致GPT-5表现得异常迟钝。”

此次升级对OpenAI至关重要。OpenAI正在努力保持领先地位，应对来自美国和中国竞争对手日益激烈的竞争。同时，它还要说服企业用户和个人用户为其付费服务买单，以抵消其在人才、芯片和数据中心等方面的巨额投入，维持AI研发。

随着AI系统的不断进步，想要明确评判各类服务的优劣变得越来越困难。截至周五中午，GPT-5已在LMArena(基于用户评分的热门AI模型排行榜)上登顶多个类别的榜首。但另一个基准测试ARC-AGI-2则显示，GPT-5落后于埃隆·马斯克(Elon Musk)旗下xAI的最新版Grok。

一些用户认为GPT-5写作更差

在缺乏更明确评估标准的情况下，模型之争有时更多靠感觉来判断。如今每周有近7亿人使用ChatGPT，难免会有人对模型的表现感受不一。要评估一个新AI系统对个人生活与工作的价值，短短一天时间远远不够。

宾夕法尼亚大学沃顿商学院教授伊桑·莫利克(Ethan Mollick)经常试用各类AI模型，他对GPT-5的研究能力、机智的文字应答以及编程简化功能(即便是对新手)赞叹不已。

“GPT-5会自主完成各种任务，常常是超凡的任务，有时是奇怪的任务，有时则是非常AI式的任务，”他在博客中写道，“而这正是它最迷人的地方。”

然而，在社交论坛Reddit上，用户的反应却截然不同。在周五的“有问必答”活动中，奥特曼面对了一些用户的质疑。这些用户对自己无法掌控和了解具体由哪个模型响应查询感到不满。奥特曼表示，OpenAI将采取措施解决这些抱怨，包括提高系统的“透明度”。

在活动中，奥特曼曾回应一位Reddit用户的问题。他指出，OpenAI认为GPT-5的某个版本在“写作质量”上优于GPT-4.5。随后他问道：“你觉得它更差吗？”接着，用户们立刻接二连三地回答说：“是的。”

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签