IT之家 2024年09月20日
OpenAI 再成“榜一大哥”:o1-preview AI 模型更轻松驾驭数学、编程等任务
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI的新人工智能模型o1-preview和o1-mini在聊天机器人竞技场中问鼎榜首,在数学任务等方面表现出色,但并非在所有方面都优于GPT-4o,且样本量小可能限制结果意义。

🎈OpenAI的o1-preview和o1-mini在聊天机器人竞技场表现优异,该竞技场是比较人工智能模型的平台,通过6000多个社区评分进行评估,这两个模型在数学任务、复杂提示和编程方面尤为突出。

📈Lmsys提供的数学模型优势图表显示,o1-preview和o1-mini得分超过1360分,大幅领先其他模型,但它们的票数远低于GPT-4o等成熟模型,每个模型评论不到3000条。

💡O1的目标是为人工智能推理设定通用新标准,即在回答前‘思考’更长时间,然而在许多不需要复杂逻辑推理的任务中,GPT-4o的反应更快。

IT之家 9 月 20 日消息,科技媒体 The Decoder 昨日(9 月 19 日)发布博文,报道称在聊天机器人竞技场(Chatbot Arena)上,OpenAI 的新人工智能模型 o1-preview 和 o1-mini 问鼎榜首。

聊天机器人竞技场简介

聊天机器人竞技场是一个比较人工智能模型的平台,它利用 6000 多个社区评分对新的 OpenAI 系统进行了评估。

结果

结果显示,o1-preview 和 o1-mini 尤其在数学任务、复杂提示和编程方面表现出色。

Lmsys 提供的数学模型优势图表清楚地显示,o1-preview 和 o1-mini 的得分超过 1360 分,远高于其他模型的表现。IT之家附上相关截图如下:

O1 的目标是为人工智能推理设定一个通用新标准,即在回答前“思考”" 更长时间。

然而,O1 模型并非在所有方面都优于 GPT-4o。许多任务并不需要复杂的逻辑推理,有时 GPT-4o 的反应更快。

注意事项

o1-preview 和 o1-mini 的票数远低于 GPT-4o 或 Anthropic's Claude 3.5 等成熟模型,每个模型都只有不到 3000 条评论,这样小的样本量可能无法准确代表实际结果,限制结果的意义。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 聊天机器人竞技场 o1-preview o1-mini 人工智能推理
相关文章