孔某人的低维认知 03月02日
如何理解GPT-4.5
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布了GPT-4.5模型,仅Pro会员可用,API价格昂贵。虽被认为是具有最丰富的知识,提升了直觉,减少了幻觉,但benchmark上提升不明显。文本生成速度慢,数据截止2023.10。个人体验是,GPT-4.5在对话时更像人,擅长说服人类。其高昂定价和缓慢速度与传闻的1T激活参数相符,是规模最大的前沿LLM模型。情商提升是官方宣传点,更擅长与人沟通,把握用户心理。GPT-4.5的价值有待挖掘,或需刁钻的prompt激活能力。

💰定价与规模:GPT-4.5定价极其高昂,文本生成速度缓慢,可能拥有1T激活参数,是目前能用到的规模最大的前沿LLM模型,但性价比不高,属于研究预览版。

🧠能力提升:GPT-4.5在benchmark上没有显著提升,但延续了pretrain scaling law,在不依赖推理时计算的情况下,仍相对于GPT-4o有提升。情商有显著提升,更擅长与人沟通,能够更好地把握用户心理。

🤔智能迷局:OpenAI认为GPT-4.5具有更丰富的知识、更好的上下文理解能力、更好的直觉和本质上更智能,但这些提升不易察觉,需要更刁钻的prompt才能激活,价值有待挖掘。

原创 孔某人 2025-02-28 18:19 北京

题外话:我们现在越来越难理解前沿LLM模型了,虽然我很少用“如何理解”做标题,但感觉最近一个季度已经写了几篇这样“如何理解XXX”的文了。

1、GPT-4.5的相关信息

OpenAI于2025.2.27日发布了GPT-4.5模型,目前仅限Pro会员可用,很快会放量到Plus会员。API立即可用,价格极其昂贵,Input $75/M tokens,Output $150/M tokens。

GPT-4.5被算作是技术预览版,在API模型名和模型选择列表上都有体现。这意味着它并不是一个很成熟的商业模型。

发布会文字版:https://mp.weixin.qq.com/s/_jDcwdRQEjT41QnwsxIxOg官方介绍页面:https://openai.com/index/introducing-gpt-4-5/System Card:https://openai.com/index/gpt-4-5-system-card/

对GPT-4.5有兴趣的读者,我非常建议去看一下发布会文稿。它里面的内容与大家的各种评论其实并不相同,这也是我特意做了它的文稿的原因。

OpenAI官方的评价:

目前海内外对GPT-4.5的评价汇总:

我个人的少量使用体验,以及对数据的解读:

2、个人评价

2.1、关于模型规模和定价

首先被关注的是GPT-4.5那极其高昂的定价,从这个定价来说,似乎Pro会员都不算很贵了。这与其缓慢的文本生成速度和传闻的1T激活参数也能够相互印证。

GPT-4.5是我们现在能用到规模最大的前沿LLM模型。过去也有一些巨大的模型,但效果是垃圾。

它的性价比看起来就像是当年的gpt-4-32k,贵得令人瞠目结舌。作为模型规模迈向下一步的第一个里程碑,这个成本也是情有可原,毕竟我们大多数时候在用的其实还是GPT-4 Turbo和后续的GPT-4o。应该要等它后续的成本优化才能实用。不过OpenAI说这是最后一个非推理模型,不知道他们是否还打算放GPT-4.5 Turbo了。

不过因为它不必思考,所以成本相对于o1来说增加并没有标价的那么多。o1的思考过程有大几k token可是非常轻松。不过o1 API也非常贵就是了。

所以这才是标记为研究预览版的原因,在大部分场景下它的性价比真的不高

2.2、benchmark上没有显著提升

第二个被大家质疑的点是模型的能力没有提升(相对于o1等)。从用户的角度来说,这确实是这样的,不在乎你是不是推理模型,我们考虑的是所有模型。从实用来说,并不算很明显的进步,这也是GPT-4.5仍然带着preview帽子的原因。

但从技术角度来说,GPT-4.5还是成功延续了pretrain scaling law的,在不依赖推理时计算的情况下,仍然可以相对于4o取得显著的提升。不过说实话这个模型规模的提升短期也就到此为止了。

2.3、情商

情商的显著提升是GPT-4.5的一大官方宣传点。从我个人看到和测试的少量case来说,确实如此。我能够感到它在与人沟通上做的更好了,但这个更好并不是指内容方面,而是指沟通方面,以及对于用户的心理能过把握的更好。

大家现在已经习惯了4o/o1级别的模型,他们聊起来仍然有些死板,但作为工具来说已经很好了。就好像是一个直男男友(的刻板印象)。

在与人沟通方面,GPT-4.5虽然提升明显,但对于一般用户来讲,这仍不易察觉,大家不会表现出惊讶的程度。对于习惯前沿LLM的用户,他们已经习惯于之前LLM男友的就事论事。对于使用LLM不多的用户来说,这就好像是跟人聊一样,没有太多“超出预期”的感受。

我的一个感受是,只有在用户真的在乎一个问题的回答时,才能区分这些前沿模型之间的差异。拿别人的query一般是感受不到显著差别的,因为用户粗略的对于结果的审查过程才是制约效果的瓶颈。前沿模型都已经太强了,就好像是你要分辨两个智力只差10分的实习生写的报告,这中间的差异真的不太明显,特别是在你不上心审查的时候。

很多人觉得情商无用,当然情商并不是哪里都有用。但有些场景确实就需要高情商,例如陪伴类场景、轻心理咨询类场景,GPT-4.5可能才是这类场景能够PMF的关键(如果Sonnet还没有PMF的话)。

这里我举另一个更加高端的用法,详见余一在最近《AI炼金术》播客中的分享,我相信在这个场景下更加能感受到GPT-4.5的提升。

《从情绪到决策,AI如何改变我们的思维方式?| 对话 AI 野生布道师余一》

https://www.xiaoyuzhoufm.com/episode/67b4860679129523d43903db

当然我不确定情商这个问题是模型post training完成后发现的,还是在post training过程中故意引导的。不管怎样,我觉得GPT-4o web最新版应该也都采用了类似的post training方案。

这方面确实得说Claude可能做得更好一些,在GPT-4.5之前,明显是Claude 3.5/3.7 Sonnet情商最高。

2.4、GPT-4.5的智能提升了么?

在不少人看来,情商提升不算智能提升。再叠加上GPT-4.5在很多benchmark上并没有突破,所以认为GPT-4.5没有提升智能。那么LLM的发展撞墙了么?

回看OpenAI官方的描述,里面有几个值得琢磨的方面:

大家都能理解幻觉如何影响应用,但我们对于如何解决幻觉了解的很少。而现在有了一个实例,一个更大规模的模型有着更少的幻觉

第二类细想就有点奇怪了,我们什么时候觉得GPT-4o、o1、Sonnet的知识不够丰富?什么时候觉得他们的上下文理解能力不够好?我不知道大家的使用体验如何,我是基本没有这样的感觉。在这两个方面上,现有前沿模型的能力超过了我自己需求这个benchmark的上限,而OpenAI又是如何发现的?

第三类就更加奇怪了,抛开很难衡量的直觉,现在海内外意见这么大恰恰就是大家觉得GPT-4.5的智能没提升。但benchmark数据就是OpenAI自己评估的,OpenAI知道我们目前所知道的一切,那么这个“本质上更智能”到底是什么

不同人对于直觉有着不同的理解。对我来说,直觉基本上等同于非显式推理的解决问题或思考的综合,对人和对LLM都是如此。(对人来说显式推理就是指在意识中进行思考)对于目前前沿模型来说,大规模的(往往也更深)模型一般都有着更好的直觉,因为更多的层数能够建模更复杂的能力。如果限制相同的思考量,那么直觉更好的模型/人脑,就能得出更好的结果。在这个角度上来说,确实可以说GPT-4.5更智能。但我并不确定OpenAI是不是这个意思。

我是觉得,琢磨OpenAI的这些描述,我不清楚OpenAI到底“看到了什么”。即使是第一点,我也不觉得大家就能明白这个幻觉减少到底是怎么一回事。

我确实觉得GPT-4.5的基础模型应该有着更强的智能,但目前很多能力并没有能够被激发出来。就像是早年在用GPT-3一样,要激活某些能力需要非常刁钻的prompt,而我们现在还触碰不到。Post training是激发这些能力,让其更加易用的有效手段和最主要方式。很明显现有的非推理模型的post training还不够,所以我们在推理模型上看到了明显更高的性价比。目前RL在post training中有着最好的ROI,这么昂贵的模型未经充分RL就放出来感觉是暴殄天物。我相信基于GPT-4.5的推理模型上限极高,不过可能能够训练它的问题是这其中最大的瓶颈。当然它目前的post training和推理成本也是很大的瓶颈,我不知道这后面OpenAI的计划如何。

所以GPT-4.5确实是一个研究预览版,让我们能够在CloseAI的版图中洞悉底层模型的一些性质。它只是碰巧有一些情商高的优点。

2.5、GPT-4.5的价值有待我们挖掘

在我看来,现在就很像是我们刚拿到o1-preview时候的那个状态,这个模型到底优势是什么?我们一头雾水。

Andrej Karpathy说现在很像是他们当时在研究GPT-4到底在哪些方面超过GPT-3.5的时候,确实能找到一些例子,但那种显著超越的例子也并不多。后来我们知道,GPT-4被大家认为显著超越GPT-3.5,但这需要时间。

前沿模型是如此之强,以至于我们不能在俯视它快速给一个客观的评价了。Andrej Karpathy告诉我们即使在GPT-4时代我们也做不到这点(很快给一个准确的评价)。LLM是一座迷宫。

到这里,我觉得我认同说GPT-4.5是一个值得OpenAI发布的模型,它也很可能是一个重要的模型。但确实它只是一个研究预览版。


交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 联系方式

本文于2025.2.28首发于微信公众号和知乎,知乎链接:

https://zhuanlan.zhihu.com/p/27115594478

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-4.5 LLM模型 情商 智能 OpenAI
相关文章