原创 孔某人 2025-02-28 18:19 北京
题外话:我们现在越来越难理解前沿LLM模型了,虽然我很少用“如何理解”做标题,但感觉最近一个季度已经写了几篇这样“如何理解XXX”的文了。
1、GPT-4.5的相关信息
OpenAI于2025.2.27日发布了GPT-4.5模型,目前仅限Pro会员可用,很快会放量到Plus会员。API立即可用,价格极其昂贵,Input $75/M tokens,Output $150/M tokens。
GPT-4.5被算作是技术预览版,在API模型名和模型选择列表上都有体现。这意味着它并不是一个很成熟的商业模型。
发布会文字版:https://mp.weixin.qq.com/s/_jDcwdRQEjT41QnwsxIxOg
官方介绍页面:https://openai.com/index/introducing-gpt-4-5/
System Card:https://openai.com/index/gpt-4-5-system-card/
对GPT-4.5有兴趣的读者,我非常建议去看一下发布会文稿。它里面的内容与大家的各种评论其实并不相同,这也是我特意做了它的文稿的原因。
OpenAI官方的评价:
GPT-4.5是OpenAI最大的LLM模型,不是推理模型。在训练和推理架构上都给OpenAI带来了不少挑战。
GPT-4.5有着更低的幻觉率。
在很多解决问题方面的benchmark上,GPT-4.5并不能超过o1和o3-mini模型。但相对于GPT-4o是有明显提升的。
GPT-4.5被OpenAI认为是:具有最丰富的知识;提升了直觉,减少了幻觉;更普遍实用,而且本质上更智能;更好的上下文理解能力。
GPT-4.5被认为显著提升了情商、与人的协作感觉以及语气的温暖程度,并引入了这方面的benchmark。
GPT-4.5被认为:特别适合改进写作和创意评估。
GPT-4.5在大多数评估中并未引入全新的能力。
目前海内外对GPT-4.5的评价汇总:
GPT-4.5的文本生成速度非常缓慢。
数据截止时间应该是2023.10。
一部分人表示GPT-4.5的写作能力大幅提高,也有人表示GPT-4.5的写作能力并没有可见的提升。
它的图像理解能力相对于其他模型有提升。
Andrej Karpathy发了一些写作的盲测问题,从X上投票结果来看,大部分问题GPT-4.5并没有好于GPT-4o最新版。
有传闻称GPT-4.5可能是有1T(1000B)的激活参数的MoE。
我个人的少量使用体验,以及对数据的解读:
GPT-4.5在对话时,更能把用户当作人来对话,而o1/4o等其他模型更多倾向于就事论事。相当于闺蜜与男友的刻板印象的差异。
GPT-4.5虽然定价贵,但由于不需要推理过程,所以实际API使用成本可能未必一定超过o1,上面ARC的测试结果也反映了这点。
GPT-4.5更擅长说服人类。
2、个人评价
2.1、关于模型规模和定价
首先被关注的是GPT-4.5那极其高昂的定价,从这个定价来说,似乎Pro会员都不算很贵了。这与其缓慢的文本生成速度和传闻的1T激活参数也能够相互印证。
GPT-4.5是我们现在能用到规模最大的前沿LLM模型。过去也有一些巨大的模型,但效果是垃圾。
它的性价比看起来就像是当年的gpt-4-32k,贵得令人瞠目结舌。作为模型规模迈向下一步的第一个里程碑,这个成本也是情有可原,毕竟我们大多数时候在用的其实还是GPT-4 Turbo和后续的GPT-4o。应该要等它后续的成本优化才能实用。不过OpenAI说这是最后一个非推理模型,不知道他们是否还打算放GPT-4.5 Turbo了。
不过因为它不必思考,所以成本相对于o1来说增加并没有标价的那么多。o1的思考过程有大几k token可是非常轻松。不过o1 API也非常贵就是了。
所以这才是标记为研究预览版的原因,在大部分场景下它的性价比真的不高。
2.2、benchmark上没有显著提升
第二个被大家质疑的点是模型的能力没有提升(相对于o1等)。从用户的角度来说,这确实是这样的,不在乎你是不是推理模型,我们考虑的是所有模型。从实用来说,并不算很明显的进步,这也是GPT-4.5仍然带着preview帽子的原因。
但从技术角度来说,GPT-4.5还是成功延续了pretrain scaling law的,在不依赖推理时计算的情况下,仍然可以相对于4o取得显著的提升。不过说实话这个模型规模的提升短期也就到此为止了。
2.3、情商
情商的显著提升是GPT-4.5的一大官方宣传点。从我个人看到和测试的少量case来说,确实如此。我能够感到它在与人沟通上做的更好了,但这个更好并不是指内容方面,而是指沟通方面,以及对于用户的心理能过把握的更好。
大家现在已经习惯了4o/o1级别的模型,他们聊起来仍然有些死板,但作为工具来说已经很好了。就好像是一个直男男友(的刻板印象)。
在与人沟通方面,GPT-4.5虽然提升明显,但对于一般用户来讲,这仍不易察觉,大家不会表现出惊讶的程度。对于习惯前沿LLM的用户,他们已经习惯于之前LLM男友的就事论事。对于使用LLM不多的用户来说,这就好像是跟人聊一样,没有太多“超出预期”的感受。
我的一个感受是,只有在用户真的在乎一个问题的回答时,才能区分这些前沿模型之间的差异。拿别人的query一般是感受不到显著差别的,因为用户粗略的对于结果的审查过程才是制约效果的瓶颈。前沿模型都已经太强了,就好像是你要分辨两个智力只差10分的实习生写的报告,这中间的差异真的不太明显,特别是在你不上心审查的时候。
很多人觉得情商无用,当然情商并不是哪里都有用。但有些场景确实就需要高情商,例如陪伴类场景、轻心理咨询类场景,GPT-4.5可能才是这类场景能够PMF的关键(如果Sonnet还没有PMF的话)。
这里我举另一个更加高端的用法,详见余一在最近《AI炼金术》播客中的分享,我相信在这个场景下更加能感受到GPT-4.5的提升。
《从情绪到决策,AI如何改变我们的思维方式?| 对话 AI 野生布道师余一》
https://www.xiaoyuzhoufm.com/episode/67b4860679129523d43903db
当然我不确定情商这个问题是模型post training完成后发现的,还是在post training过程中故意引导的。不管怎样,我觉得GPT-4o web最新版应该也都采用了类似的post training方案。
这方面确实得说Claude可能做得更好一些,在GPT-4.5之前,明显是Claude 3.5/3.7 Sonnet情商最高。
2.4、GPT-4.5的智能提升了么?
在不少人看来,情商提升不算智能提升。再叠加上GPT-4.5在很多benchmark上并没有突破,所以认为GPT-4.5没有提升智能。那么LLM的发展撞墙了么?
回看OpenAI官方的描述,里面有几个值得琢磨的方面:
减少了幻觉
更丰富的知识、更好的上下文理解能力
更好的直觉、本质上更智能
大家都能理解幻觉如何影响应用,但我们对于如何解决幻觉了解的很少。而现在有了一个实例,一个更大规模的模型有着更少的幻觉。
第二类细想就有点奇怪了,我们什么时候觉得GPT-4o、o1、Sonnet的知识不够丰富?什么时候觉得他们的上下文理解能力不够好?我不知道大家的使用体验如何,我是基本没有这样的感觉。在这两个方面上,现有前沿模型的能力超过了我自己需求这个benchmark的上限,而OpenAI又是如何发现的?
第三类就更加奇怪了,抛开很难衡量的直觉,现在海内外意见这么大恰恰就是大家觉得GPT-4.5的智能没提升。但benchmark数据就是OpenAI自己评估的,OpenAI知道我们目前所知道的一切,那么这个“本质上更智能”到底是什么?
不同人对于直觉有着不同的理解。对我来说,直觉基本上等同于非显式推理的解决问题或思考的综合,对人和对LLM都是如此。(对人来说显式推理就是指在意识中进行思考)对于目前前沿模型来说,大规模的(往往也更深)模型一般都有着更好的直觉,因为更多的层数能够建模更复杂的能力。如果限制相同的思考量,那么直觉更好的模型/人脑,就能得出更好的结果。在这个角度上来说,确实可以说GPT-4.5更智能。但我并不确定OpenAI是不是这个意思。
我是觉得,琢磨OpenAI的这些描述,我不清楚OpenAI到底“看到了什么”。即使是第一点,我也不觉得大家就能明白这个幻觉减少到底是怎么一回事。
我确实觉得GPT-4.5的基础模型应该有着更强的智能,但目前很多能力并没有能够被激发出来。就像是早年在用GPT-3一样,要激活某些能力需要非常刁钻的prompt,而我们现在还触碰不到。Post training是激发这些能力,让其更加易用的有效手段和最主要方式。很明显现有的非推理模型的post training还不够,所以我们在推理模型上看到了明显更高的性价比。目前RL在post training中有着最好的ROI,这么昂贵的模型未经充分RL就放出来感觉是暴殄天物。我相信基于GPT-4.5的推理模型上限极高,不过可能能够训练它的问题是这其中最大的瓶颈。当然它目前的post training和推理成本也是很大的瓶颈,我不知道这后面OpenAI的计划如何。
所以GPT-4.5确实是一个研究预览版,让我们能够在CloseAI的版图中洞悉底层模型的一些性质。它只是碰巧有一些情商高的优点。
2.5、GPT-4.5的价值有待我们挖掘
在我看来,现在就很像是我们刚拿到o1-preview时候的那个状态,这个模型到底优势是什么?我们一头雾水。
Andrej Karpathy说现在很像是他们当时在研究GPT-4到底在哪些方面超过GPT-3.5的时候,确实能找到一些例子,但那种显著超越的例子也并不多。后来我们知道,GPT-4被大家认为显著超越GPT-3.5,但这需要时间。
前沿模型是如此之强,以至于我们不能在俯视它快速给一个客观的评价了。Andrej Karpathy告诉我们即使在GPT-4时代我们也做不到这点(很快给一个准确的评价)。LLM是一座迷宫。
到这里,我觉得我认同说GPT-4.5是一个值得OpenAI发布的模型,它也很可能是一个重要的模型。但确实它只是一个研究预览版。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 联系方式。
本文于2025.2.28首发于微信公众号和知乎,知乎链接:
https://zhuanlan.zhihu.com/p/27115594478