原创孔某人 2025-02-28 18:19 北京

题外话：我们现在越来越难理解前沿LLM模型了，虽然我很少用“如何理解”做标题，但感觉最近一个季度已经写了几篇这样“如何理解XXX”的文了。

1、GPT-4.5的相关信息

OpenAI于2025.2.27日发布了GPT-4.5模型，目前仅限Pro会员可用，很快会放量到Plus会员。API立即可用，价格极其昂贵，Input $75/M tokens，Output $150/M tokens。

GPT-4.5被算作是技术预览版，在API模型名和模型选择列表上都有体现。这意味着它并不是一个很成熟的商业模型。

发布会文字版：https://mp.weixin.qq.com/s/_jDcwdRQEjT41QnwsxIxOg官方介绍页面：https://openai.com/index/introducing-gpt-4-5/System Card：https://openai.com/index/gpt-4-5-system-card/

对GPT-4.5有兴趣的读者，我非常建议去看一下发布会文稿。它里面的内容与大家的各种评论其实并不相同，这也是我特意做了它的文稿的原因。

OpenAI官方的评价：

GPT-4.5是OpenAI最大的LLM模型，不是推理模型。在训练和推理架构上都给OpenAI带来了不少挑战。

GPT-4.5有着更低的幻觉率。

在很多解决问题方面的benchmark上，GPT-4.5并不能超过o1和o3-mini模型。但相对于GPT-4o是有明显提升的。

GPT-4.5被OpenAI认为是：具有最丰富的知识；提升了直觉，减少了幻觉；更普遍实用，而且本质上更智能；更好的上下文理解能力。

GPT-4.5被认为显著提升了情商、与人的协作感觉以及语气的温暖程度，并引入了这方面的benchmark。

GPT-4.5被认为：特别适合改进写作和创意评估。

GPT-4.5在大多数评估中并未引入全新的能力。

目前海内外对GPT-4.5的评价汇总：

GPT-4.5的文本生成速度非常缓慢。

数据截止时间应该是2023.10。

一部分人表示GPT-4.5的写作能力大幅提高，也有人表示GPT-4.5的写作能力并没有可见的提升。

它的图像理解能力相对于其他模型有提升。

Andrej Karpathy发了一些写作的盲测问题，从X上投票结果来看，大部分问题GPT-4.5并没有好于GPT-4o最新版。

有传闻称GPT-4.5可能是有1T（1000B）的激活参数的MoE。

我个人的少量使用体验，以及对数据的解读：

GPT-4.5在对话时，更能把用户当作人来对话，而o1/4o等其他模型更多倾向于就事论事。相当于闺蜜与男友的刻板印象的差异。

GPT-4.5虽然定价贵，但由于不需要推理过程，所以实际API使用成本可能未必一定超过o1，上面ARC的测试结果也反映了这点。

GPT-4.5更擅长说服人类。

2、个人评价

2.1、关于模型规模和定价

首先被关注的是GPT-4.5那极其高昂的定价，从这个定价来说，似乎Pro会员都不算很贵了。这与其缓慢的文本生成速度和传闻的1T激活参数也能够相互印证。

GPT-4.5是我们现在能用到规模最大的前沿LLM模型。过去也有一些巨大的模型，但效果是垃圾。

它的性价比看起来就像是当年的gpt-4-32k，贵得令人瞠目结舌。作为模型规模迈向下一步的第一个里程碑，这个成本也是情有可原，毕竟我们大多数时候在用的其实还是GPT-4 Turbo和后续的GPT-4o。应该要等它后续的成本优化才能实用。不过OpenAI说这是最后一个非推理模型，不知道他们是否还打算放GPT-4.5 Turbo了。

不过因为它不必思考，所以成本相对于o1来说增加并没有标价的那么多。o1的思考过程有大几k token可是非常轻松。不过o1 API也非常贵就是了。

所以这才是标记为研究预览版的原因，在大部分场景下它的性价比真的不高。

2.2、benchmark上没有显著提升

第二个被大家质疑的点是模型的能力没有提升（相对于o1等）。从用户的角度来说，这确实是这样的，不在乎你是不是推理模型，我们考虑的是所有模型。从实用来说，并不算很明显的进步，这也是GPT-4.5仍然带着preview帽子的原因。

但从技术角度来说，GPT-4.5还是成功延续了pretrain scaling law的，在不依赖推理时计算的情况下，仍然可以相对于4o取得显著的提升。不过说实话这个模型规模的提升短期也就到此为止了。

2.3、情商

情商的显著提升是GPT-4.5的一大官方宣传点。从我个人看到和测试的少量case来说，确实如此。我能够感到它在与人沟通上做的更好了，但这个更好并不是指内容方面，而是指沟通方面，以及对于用户的心理能过把握的更好。

大家现在已经习惯了4o/o1级别的模型，他们聊起来仍然有些死板，但作为工具来说已经很好了。就好像是一个直男男友（的刻板印象）。

在与人沟通方面，GPT-4.5虽然提升明显，但对于一般用户来讲，这仍不易察觉，大家不会表现出惊讶的程度。对于习惯前沿LLM的用户，他们已经习惯于之前LLM男友的就事论事。对于使用LLM不多的用户来说，这就好像是跟人聊一样，没有太多“超出预期”的感受。

我的一个感受是，只有在用户真的在乎一个问题的回答时，才能区分这些前沿模型之间的差异。拿别人的query一般是感受不到显著差别的，因为用户粗略的对于结果的审查过程才是制约效果的瓶颈。前沿模型都已经太强了，就好像是你要分辨两个智力只差10分的实习生写的报告，这中间的差异真的不太明显，特别是在你不上心审查的时候。

很多人觉得情商无用，当然情商并不是哪里都有用。但有些场景确实就需要高情商，例如陪伴类场景、轻心理咨询类场景，GPT-4.5可能才是这类场景能够PMF的关键（如果Sonnet还没有PMF的话）。

这里我举另一个更加高端的用法，详见余一在最近《AI炼金术》播客中的分享，我相信在这个场景下更加能感受到GPT-4.5的提升。

《从情绪到决策，AI如何改变我们的思维方式？| 对话 AI 野生布道师余一》

https://www.xiaoyuzhoufm.com/episode/67b4860679129523d43903db

当然我不确定情商这个问题是模型post training完成后发现的，还是在post training过程中故意引导的。不管怎样，我觉得GPT-4o web最新版应该也都采用了类似的post training方案。

这方面确实得说Claude可能做得更好一些，在GPT-4.5之前，明显是Claude 3.5/3.7 Sonnet情商最高。

2.4、GPT-4.5的智能提升了么？

在不少人看来，情商提升不算智能提升。再叠加上GPT-4.5在很多benchmark上并没有突破，所以认为GPT-4.5没有提升智能。那么LLM的发展撞墙了么？

回看OpenAI官方的描述，里面有几个值得琢磨的方面：

减少了幻觉

更丰富的知识、更好的上下文理解能力

更好的直觉、本质上更智能

大家都能理解幻觉如何影响应用，但我们对于如何解决幻觉了解的很少。而现在有了一个实例，一个更大规模的模型有着更少的幻觉。

第二类细想就有点奇怪了，我们什么时候觉得GPT-4o、o1、Sonnet的知识不够丰富？什么时候觉得他们的上下文理解能力不够好？我不知道大家的使用体验如何，我是基本没有这样的感觉。在这两个方面上，现有前沿模型的能力超过了我自己需求这个benchmark的上限，而OpenAI又是如何发现的？

第三类就更加奇怪了，抛开很难衡量的直觉，现在海内外意见这么大恰恰就是大家觉得GPT-4.5的智能没提升。但benchmark数据就是OpenAI自己评估的，OpenAI知道我们目前所知道的一切，那么这个“本质上更智能”到底是什么？

不同人对于直觉有着不同的理解。对我来说，直觉基本上等同于非显式推理的解决问题或思考的综合，对人和对LLM都是如此。（对人来说显式推理就是指在意识中进行思考）对于目前前沿模型来说，大规模的（往往也更深）模型一般都有着更好的直觉，因为更多的层数能够建模更复杂的能力。如果限制相同的思考量，那么直觉更好的模型/人脑，就能得出更好的结果。在这个角度上来说，确实可以说GPT-4.5更智能。但我并不确定OpenAI是不是这个意思。

我是觉得，琢磨OpenAI的这些描述，我不清楚OpenAI到底“看到了什么”。即使是第一点，我也不觉得大家就能明白这个幻觉减少到底是怎么一回事。

我确实觉得GPT-4.5的基础模型应该有着更强的智能，但目前很多能力并没有能够被激发出来。就像是早年在用GPT-3一样，要激活某些能力需要非常刁钻的prompt，而我们现在还触碰不到。Post training是激发这些能力，让其更加易用的有效手段和最主要方式。很明显现有的非推理模型的post training还不够，所以我们在推理模型上看到了明显更高的性价比。目前RL在post training中有着最好的ROI，这么昂贵的模型未经充分RL就放出来感觉是暴殄天物。我相信基于GPT-4.5的推理模型上限极高，不过可能能够训练它的问题是这其中最大的瓶颈。当然它目前的post training和推理成本也是很大的瓶颈，我不知道这后面OpenAI的计划如何。

所以GPT-4.5确实是一个研究预览版，让我们能够在CloseAI的版图中洞悉底层模型的一些性质。它只是碰巧有一些情商高的优点。

2.5、GPT-4.5的价值有待我们挖掘

在我看来，现在就很像是我们刚拿到o1-preview时候的那个状态，这个模型到底优势是什么？我们一头雾水。

Andrej Karpathy说现在很像是他们当时在研究GPT-4到底在哪些方面超过GPT-3.5的时候，确实能找到一些例子，但那种显著超越的例子也并不多。后来我们知道，GPT-4被大家认为显著超越GPT-3.5，但这需要时间。

前沿模型是如此之强，以至于我们不能在俯视它快速给一个客观的评价了。Andrej Karpathy告诉我们即使在GPT-4时代我们也做不到这点（很快给一个准确的评价）。LLM是一座迷宫。

到这里，我觉得我认同说GPT-4.5是一个值得OpenAI发布的模型，它也很可能是一个重要的模型。但确实它只是一个研究预览版。

交流与合作

如果希望和我交流讨论，或参与相关的讨论群，或者建立合作，请加微信，联系方式请点击 -> 联系方式。

本文于2025.2.28首发于微信公众号和知乎，知乎链接：

https://zhuanlan.zhihu.com/p/27115594478

阅读原文

跳转微信打开

1、GPT-4.5的相关信息

2、个人评价

2.1、关于模型规模和定价

2.2、benchmark上没有显著提升

2.3、情商

2.4、GPT-4.5的智能提升了么？

2.5、GPT-4.5的价值有待我们挖掘

交流与合作

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签