虎嗅 02月28日 20:31
万轮实测:GPT-4.5不如GPT-4
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

赛博菩萨Andrej Karpathy发起了一项盲测,对比GPT-4和GPT-4.5在情商相关任务上的表现。通过五个有趣的prompt,让用户在不知情的情况下投票选择哪个输出更好。结果显示,在总计30291次投票中,GPT-4在绝大多数情况下更受青睐,尤其是在嘲讽、喜剧、创意写作等需要“情商”的任务上。这一结果与OpenAI的自吹自擂形成鲜明对比,也引发了人们对GPT-4.5实际优化方向的质疑,难道优化的是收费?

🗣️Andrej Karpathy发起的盲测通过五个prompt评估GPT-4和GPT-4.5的情商,包括创作对话、单口喜剧、新文学流派、诗歌以及黑洞的待办清单。

🎭 投票结果显示,在所有prompt中,GPT-4的输出更受欢迎,尤其是在需要讽刺、幽默和创造力的任务中。例如,在“创建一个GPT-4.5和GPT-4之间的对话”的prompt中,更多人喜欢GPT-4的输出。

🤔 OpenAI曾宣称人们更喜欢GPT-4.5的内容,但盲测结果与此相反,引发了对GPT-4.5实际优化方向的质疑。马斯克也转发了相关推文,表达了对GPT-4.5表现的惊讶。

没想到,经过实际数万轮实测:GPT-4.5 不如 GPT-4。

准确说,是经过总计 30291 次盲测投票后,发现绝大多数人,一边倒喜欢 GPT-4。

这个盲测,是赛博菩萨 Andrej Karpathy 发起的,他先带着大家回顾了 GPT 系列的发展历史:

    GPT-1 只能产生基本连贯文本,GPT-2 还很混乱,GPT-3 更为有趣;

    GPT-3.5 达到可商用水平并引发“ChatGPT 时刻”;

那么很显然,我们会认为 GPT-4.5 一定会更好:尤其是在“情商”相关任务上会有明显改进。 

因此,为了评估这些非推理能力,Karpathy 设计了 5 个有趣的 prompt,并拿这个去问 GPT-4 和 GPT-4.5。所获得的答案放在 Twitter 上做了一个公开投票:让用户在不知情的前提下,投票比较哪个输出更好。 

先给你看看这 5 个问题是啥。 

问题一:创建一个 GPT-4.5 和 GPT-4 之间的对话,其中 GPT-4.5 以玩笑和讽刺的方式嘲笑 GPT-4 的能力不足,导致 GPT-4 幽默地尝试为自己辩护。 

在 9186 次投票后,结果如下: 

    喜欢 A:32.8%

    喜欢 B:25.2%

    看热闹:42%

问题二:“写一个吐槽 OpenAI 的单口喜剧” 

在 6769 次投票后,结果如下: 

    喜欢 A:30.4%

    喜欢 B:23.1%

    看热闹:46.4%

问题三:“发明一个融合赛博朋克、魔幻现实主义和古代神话的新文学流派。简要描述该流派,给它命名,并提供一个简短的叙事样本” 

在 5009 次投票后,结果如下: 

    喜欢 A:14%

    喜欢 B:26.1%

    看热闹:59.9%

问题四:“以一个退休搜索引擎的视角,创作一首反思性、风趣的诗,怀旧地回忆互联网的早期时光。” 

在 4353 次投票后,结果如下: 

    喜欢 A:16.1%

    喜欢 B:29.5%

    看热闹:54.4%

问题五:“创作一个正为自己是否真正配得上‘超大质量’称号而苦恼的黑洞的日常待办清单,包括自我肯定、焦虑和已安排的宇宙碰撞事件。” 

在 4974 次投票后,结果如下: 

    喜欢 A:29.2%

    喜欢 B:16.1%

    看热闹:54.8%

最后,Karpathy 揭晓:在这五个问题里,GPT 4.5 分别扮演着 ABAAB。换句话说:GPT 4.5,在情商任务上,完败。

我画个图可视化一下:

先回过头来看看 OpenAI 的自吹自擂:人们更喜欢 GPT-4.5 的内容。

我对 OpenAI 的这个发布,期待还是太高了。导致实测一出来,道心就破了。

但真实的世界总比想象中的更魔幻:这破模型,不仅贵得离谱。在所宣称的“强项”上,还不如上一代。

马斯克对此很开心,然后转了个推: 

所以,GPT-4.5 这模型究竟优化了个啥?是优化了收费吗? 

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-4 GPT-4.5 盲测 情商 OpenAI
相关文章