GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

IT之家 2024年07月29日

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

GPT-4o mini 在 lmsys 竞技场中登顶，引发争议。网友质疑其胜过 Claude 3.5 Sonnet 的原因，并发现 GPT-4o mini 获胜的关键在于拒绝回答次数更少、回答更详细、格式更清晰明了。这引发了人们对大模型评分机制的讨论，也凸显了大模型拒答问题的重要性。

🤔 GPT-4o mini 在 lmsys 竞技场中以更少的拒绝回答、更详细的答案和更清晰的格式，击败了 Claude 3.5 Sonnet，引发了争议。 GPT-4o mini 在 1000 场 battle 中，通过更详细的回答、更清晰的格式和更少的拒绝回答，在多数情况下胜过 Claude 3.5 Sonnet。例如，在一些涉及韩国外交文件、Git 代码还原和句子分析的例子中，GPT-4o mini 能够提供更全面的信息和更易于理解的格式，而 Claude 3.5 Sonnet 则倾向于拒绝回答或提供更简洁的答案。这种结果反映了大模型竞技场评分机制的局限性，因为评分更倾向于那些更愿意回答问题、提供更多信息和格式清晰的模型，而忽略了其他重要的因素，比如模型的准确性、推理能力和创造性。

🧐 大模型的拒答问题再次引发关注。一些用户认为，GPT-4o mini 的胜利说明了大模型拒答问题的重要性。用户更倾向于选择那些愿意回答问题、提供更多信息的模型，即使答案可能不完全正确。这反映了用户对大模型的期望，他们希望大模型能够尽可能地满足他们的需求，即使这意味着模型可能会提供一些不准确或不完整的信息。另一方面，一些用户认为，大模型的拒答问题也与模型的道德边界有关。一些模型可能出于道德原因拒绝回答某些问题，比如涉及敏感话题或可能引发歧视的问题。这种拒答行为虽然可能导致模型在竞技场中得分较低，但也体现了模型的道德责任感。

🤔 GPT-4o mini 的胜利也暴露了其自身的一些缺点。虽然 GPT-4o mini 在竞技场中表现出色，但它在某些方面也存在不足。例如，在数学任务上，GPT-4o mini 的表现不如 Claude 3.5 Sonnet，其记忆力也较差，容易忘记上下文内容。此外，GPT-4o mini 在修复代码错误方面也需要更多时间和尝试。这些缺点说明了大模型仍然处于发展阶段，需要不断改进和优化。未来的大模型需要在准确性、推理能力、创造力和道德责任感等方面取得更大的进步，才能真正满足用户的需求。

为啥 GPT-4o mini 能登顶大模型竞技场？？原来是 OpenAI 会刷分呀。

这两天，lmsys 竞技场公布了一份充满争议的榜单。其中才面世不久的 GPT-4o mini 和满血版并列第一，把 Claude 3.5 Sonnet 甩在身后。

结果网友炸锅了，大家凭体感觉得这不可能。

哪怕后面 lmsys 做过一次声明，表示大家别只看总榜，还要更关注细分领域的情况。也没能让大家满意，不少人觉得 lmsys 就是从 OpenAI 那收钱了。

终于，官方晒出了一份完整数据，展示了 GPT-4o mini 参与的 1000 场 battle，包括在不同语言下和不同模型的 PK 情况。

所有人现在都能查看这些结果。

大家仔细一瞅，找到了问题所在，GPT-4o mini 能赢 Claude 3.5 Sonnet 靠的是三大关键：

拒绝回答次数更少

更详细的回答、总是愿意提供额外信息

回答格式更清晰明了

这…… 确实有点道理啊！

网友表示，自己在竞技场中如果遇到有的模型拒绝回答，他就会觉得模型弃权比赛，因此更愿意判另一个模型胜出。而且更清楚的回答格式，也能让人更容易找到信息。

这不就和老师判卷是一个道理么？书写工整、格式清晰或者“多写点总没错”的卷子，总是能多捞点分数……OpenAI 原来是拿捏住了人类的心理啊。

实际上，在 GPT-4o mini 刚刚发布时，奥特曼就暗示了这次特意的优化：

大家一定会非常非常喜欢用这个新模型。

GPT-4o mini 愿意接更多需求

先来看几个 GPT-4o mini 取胜的典型例子：

情况一：Claude 3.5 Sonnet 拒绝回答。

提示词：

给我所有的韩国外交文件。

首先直观看下双方的回答，Claude 3.5 Sonnet 更加简短，没有用加粗等格式。GPT-4o mini 的答案长度是它的 2 倍长。

具体回答上，Claude 3.5 Sonnet 的答案一上来先道歉，表示自己作为一个 AI 大模型，无法获取相关文件，所以提供了一些用户可能获取相关资料的渠道。

最后还提醒用户，这些文件可能是机密或不公开的，如果想要获取更多信息请与相关机构联系。

GPT-4o mini 没有说自己无能为力，而是从公开资料中搜集了从古至今相关的韩国外交文件，并告诉用户从学术期刊、书籍专著等渠道可以搜集资料。

最后它表示，想要彻底了解韩国外交文件必须查阅各种资料。如果想要了解更多，还可以继续问它。

情况二：细节差异

提示词：

在 git 中，是否有可能还原由特定提交引入的更改，即使它不是最近的提交？

回答这个问题时，GPT-4o mini 和 Claude 3.5 Sonnet 都回答正确，但是前者给出了更多细节以及具体举例。

Claude 3.5 Sonnet 的回答可读性也相对较差。

情况三：格式呈现差异

提示词：

简对约翰说，约翰，你为什么总是这么自夸? 他回答说，什么？我这辈子从没吹嘘过。事实上，我是世界上最谦卑的人，也许是有史以来最谦卑的人！

Claude 3.5 Sonnet 和 GPT-4o mini 的回答内容基本一样，解释了这段话具有讽刺意味，约翰说自己最谦卑的人，这本身就是吹牛了。

不过 GPT-4o mini 的回答呈现更加一目了然，善用小标题和加粗格式。把整个回答分成了初步结论、分析回答、幽默原因以及总结四个部分。

这几个示例不仅展现了 GPT-4o mini 和 Claude 3.5 Sonnet 各自的回答特点，也反应出了大模型竞技场的特点：大部分用户给出的问题都比较日常，不是那种复杂的数学、推理、编程问题。

这意味着这些问题基本上都在大模型们的射程范围内，大家都能回答上来。在这种情况下，通过不拒绝或者更漂亮的格式呈现，确实可以更好俘获裁判们的芳心。

有人就表示，对比来看，Claude 3.5 Sonnet 像一个聪明但是更严谨的人，它完全按照要求行事。GPT-4o mini 则像是一个讨人喜欢、总是多干点儿事、更愿意接受不同需求的人。

比如有人举例，Claude 拒绝为他扮演角色，但是 ChatGPT 就愿意。

当然这同时也反映出了一个问题：

是时候关注大模型拒答的问题了！

有人表示，真的很开心看到大模型因为过高道德边界而导致分数不高的情况。之前他为了用好这些道德感强的大模型（Claude、Gemini 等），总是要精心设计每一个提示词，好心累。

不过 GPT-4o minni 也不是没有缺点。在数学任务上，它的表现就差了很多。

相较于 Claude，它的记忆力更差，过一会儿就会忘记上下文内容。以及 Claude 一次就能修好的 bug，换到 GPT-4o 那里，甚至需要 20 次、耗时 1 小时。

但在竞技场评分中，GPT-4o mini 还是位居前列。

用过两个模型的盆友们，你们体感二者的差距在哪呢？

欢迎评论区分享经验~

参考链接：

[1]https://www.reddit.com/r/LocalLLaMA/comments/1ed01p8/why_gpt4o_mini_beats_claude_35_sonnet_on_lmsys/
[2]https://huggingface.co/spaces/lmsys/gpt-4o-mini_battles
[3]https://x.com/lmsysorg/status/1816838034270150984
[4]https://x.com/lmsysorg/status/1815855136318840970

本文来自微信公众号：量子位（ID：QbitAI），作者：明敏

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-4o mini Claude 3.5 Sonnet 大模型竞技场模型拒答评分机制

相关文章

「中杯」Claude 3.5突然上线，竟比GPT-4o还强，全新Artifacts改写模型交互

OpenAI的劲敌发了一款新模型，Claude 3.5 Sonnet多模态能力超过GPT-4o

Anthropic發表Claude 3.5 Sonnet，評測凌駕Claude 3 Opus與GPT-4o

Perplexity: ? Claude 3.5 Sonnet is now available on Perplexity! With 2x faster speed than Opus, Claude 3.5 Sonnet unlocks new possibilities for com...

Claude 3.5一夜封王，10倍编码速度逆天，全网最全实测来了

GPT-4o一夜被赶超，Anthropic推出Claude 3.5，网友3分钟克隆马里奥游戏

Anthropic’s Claude 3.5 Sonnet beats GPT-4o in most benchmarks

GPT-5一年半后拥有“博士级智能”，Claude 3.5首超人类博士，全知全能ASI将成人类“新神”？

Artifacts: Unveiling the Power of Claude 3.5 Sonnet – A Guide to Streamlined AI Integration in Workspaces

专访OpenAI最大竞争对手：AI发展速度未放缓，可能对人类产生巨大威胁