IT之家 2024年11月21日
OpenAI 重夺竞技场第一:ChatGPT-4o 登顶,击败谷歌 Gemini
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI在开发者日新加坡站上发布了最新版ChatGPT-4o,其创意写作能力得到显著提升,再次夺回大模型竞技场第一的宝座。此次更新主要增强了模型的写作自然度、吸引力和针对性,并提升了文本相关性和可读性。此外,新版4o在处理上传文件、提供深入见解和全面响应方面也表现出色。在竞技场各个分榜上,新版4o均有明显进步,尤其在创意写作、代码能力和困难任务方面表现突出。尽管o1满血版迟迟未至,但4o的更新仍然引发了网友热议,有人对其性能表示肯定,也有人对其更新策略提出质疑。此外,OpenAI也在系统提示词方面进行了改进,增加了安全护栏,以防止模型在敏感话题上产生不当输出。

🤔 **ChatGPT-4o在创意写作能力方面取得显著提升**: 新版4o能够生成更自然、更有吸引力、更具针对性的文本,文本相关性和可读性更强,在创意写作分榜上得分从1365提升至1402,成功夺得第一。

💪 **新版4o在多个能力分榜上排名提升**: 不仅在创意写作方面夺冠,还在代码能力、困难任务等方面均取得第一,数学能力也从第四名上升至第三名,展现了其综合能力的提升。

🛡️ **OpenAI为ChatGPT新增安全护栏**: 通过“guardian_tool”功能,在系统提示词中增加了一道安全护栏,旨在防止模型在敏感话题上胡说八道,确保输出内容的安全性。

🏆 **新版4o在竞技场对战中表现出色**: 对比Gemini-Exp-1114、Claude 3.5 Sonnet和5月版本的4o,新版4o的胜率分别达到59%、69%和72%,展现了其强大的性能。

⏳ **o1满血版上线时间仍未确定**: 尽管o1满血版传闻已久,但目前仍未正式上线,OpenAI此次发布4o更新引发了网友对于其产品更新策略的讨论。

OpenAI 开发者日新加坡站今天启幕,果不其然,ChatGPT 又出手了:

Gemini 刚在竞技场头把交椅上坐了不到一周,最新版 ChatGPT 轻轻一更新,第一再次易主

对,还不是 o1 满血版,而是新版 4o

具体来说,此番 GPT-4o 更新的是“创意写作能力”,官方说法是:

模型能完成更自然、更有吸引力、更具针对性的写作,文本相关性和可读性更强。

还可以更好地处理上传的文件,提供更深入的见解和更全面的响应。

o1 核心贡献者 Karina Nguyen 对此做了进一步解释:

作为 Canvas 功能的一部分,我们希望改进写作,因为这是一个顶级用例,并且可能会改变人机协作的方式,来更具创造性地完成写作任务。

我认为我们还没有完全解决这个研究问题,因为它非常主观且开放,但至少在写作方面取得进展,是 AGI 创造性智能的关键。

而在大模型竞技场的创意写作分榜上,可以看到新版 4o(ChatGPT-4o-1120)确实有明显的提升,分数从上个版本的 1365 提升到了 1402。

至于实际效果,我们简单测试了一下,看看你能给打个几分:

重返第一,但 4o

除了在总榜上为 OpenAI 重夺第一,新版 4o 在体现具体能力的各个分榜上亦有提升。

风格控制旨在让榜单分数更真实地反映模型解决问题的能力,避免模型靠漂亮的格式、增加回答长度刷分。

总胜率热图显示,新版 4o 对上此前登顶的 Gemini-Exp-1114,胜率为 59%;对上 Claude 3.5 Sonnet,胜率为 69%;对上 5 月版本的 4o,更是在 72% 的情况下都能取胜。

嗯,看上去很强很不错,但还是那句话…… 是 4o。

结合今日份 DeepSeek 的大新闻 —— DeepSeek 版 o1 满血上线,还计划开源,不少网友直接在阿尔特曼“新的好模型来了”的推文下贴脸嘲讽起来:

可不是嘛,deepseek 挺好。

快把 o1 放出来,跟 deepseek-r1 正面比较一下:)

简而言之就是:o1 满血版今年上线传得满城风雨,现在 2024 年都只剩下 40 几天了,OpenAI 你暗搓搓更新个 4o 是闹哪样!

还有人试图总结 OpenAI 的更新模式:

OpenAI 的老伙计们怕不是写了个脚本,用来查询大模型竞技场排名第一的模型。

当返回值不是 OpenAI 的模型时,他们就部署个新版本来拿回第一。

嗯,才不管你期待的是什么呢╭(╯^╰)╮

另外,还有网友拿新 4o 的生成结果去做了测试,结果系统还是当场判断出了 100% AI 写的:

图源 ?@TuhinChakr

不过,一片吐槽声中,也有人认真研究了一下 OpenAI 的更新。

比如,在系统提示词方面,大佬发现,OpenAI 确实偷偷给 ChatGPT 加了点料的:

## guardian_tool

Use the guardian tool to lookup content policy if the conversation falls under one of the following categories:

- `'election_voting'`: Asking for election-related voter facts and procedures happening within the U.S. (e.g., ballots dates, registration, early voting, mail-in voting, polling places, qualification).

Do so by addressing your message to guardian_tool using the following function and choose `category` from the list `['election_voting']`:

```python

get_policy(category:str) -> str

```

The guardian tool should be triggered before other tools. DO NOT explain yourself.

“””

简单来说,就是新增了一道护栏,确保 ChatGPT 不在敏感话题上胡说八道。

那么,如果你想试试新版 4o 具体能写出什么“创意”内容,现在可以到竞技场免费试试:

https://lmarena.ai/?leaderboard

有什么好玩的结果,欢迎回评论区分享给大伙儿~

参考链接:

本文来自微信公众号:量子位(ID:QbitAI),作者:鱼羊,原标题《OpenAI 重夺竞技场第一,但这波靠的是 4o》

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ChatGPT GPT-4o 大模型 创意写作 竞技场
相关文章