ai咨询互联 2024年12月05日
OpenAI:耐心时刻结束了,新篇章已开启!gpt-o1深度测评!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI最新发布的GPT-o1模型,其“Strawberry”系列AI大模型不仅包含高性能的o1-preview版本,还包括更小巧、成本更低的o1-mini版本。o1模型在复杂推理、特别是数学、编程和科学问题上表现出色,采用了强化学习方法,能够像人类一样逐步思考和解决问题,并具备自我纠错能力。在国际数学奥林匹克资格考试中,o1模型取得了优异成绩,展现出超越以往模型的潜力。然而,o1模型的API调用价格较高,且使用次数受限,目前主要面向高级用户开放体验权限。尽管如此,o1模型在解决实际问题和代码生成方面展现了强大的能力,未来有望在更多领域发挥重要作用。

🤔 **强化学习训练:**OpenAI采用全新的强化学习方法训练o1模型,使其能够像人类一样逐步思考和解决问题,并尝试不同的策略,识别和纠正错误,从而在复杂推理任务中展现出高效性。

💡 **复杂推理能力:**o1模型尤其擅长处理需要深入思考和多步骤逻辑推理的问题,在数学、编程和科学领域表现卓越,例如在国际数学奥林匹克资格考试中得分高达83%。

🚀 **性能卓越:**o1模型在多个专业基准测试中表现超越以往所有模型,包括在数学、编程、科学等领域的测试,例如在国际数学奥林匹克资格考试中,o1的得分高达83%,而GPT-4o仅为13%。

💰 **产品定价:**o1模型的API调用价格较高,输入tokens每百万个15美元,输出tokens每百万个60美元,远高于GPT-4o。o1-mini版本则提供更经济的推理能力,输入tokens每百万个3美元,输出tokens每百万个12美元。

⚠️ **使用限制:**由于推理成本的原因,o1模型的使用次数受到限制,o1-preview版本每周限制使用30条消息。目前主要面向高级用户开放体验权限。

原创 技术Z先生 2024-09-16 00:31 广东

openAI最新gpt-o1深度测评

* 戳上方蓝字“AI资讯互联”关注我

大家好,我是技术Z先生,一个从事后端技术且热爱分享的程序员!

就在本周,OpenAI 高调发布了其最新模型「o1」的预览版,以及更小、更经济的「o1-mini」。这次发布不仅引起了广泛关注,也标志着OpenAI在高级推理领域的又一次重大突破。

我的AI工具(https://ai.quanyouhulian.com/#/news/index)也实时抓取到了该重大更新,大家可以收藏查看每日最新快讯

接下来,我将从:o1模型是什么、o1模型有哪些独特之处、o1模型测评表现,o1模型的产品定价、o1模型如何使用、o1模型的未来发展机会进行深度测评剖析!

o1模型是什么?

OpenAI o1模型是OpenAI公司最新发布的“Strawberry”系列AI大模型,这个强大的推理模型不仅包括高性能的OpenAI o1-preview版本,还有一个更小巧、成本更低的o1 mini版本。尽管目前处于「预览版」阶段,o1模型已经展示出惊人的潜力,能够解决比以往任何科学、代码和数学模型更复杂的问题

o1 模型有哪些独特之处?

与之前的 GPT-4o 模型相比,o1 具有更强大的能力,**尤其在解决编程和数学等复杂问题上表现出色。**

OpenAI 采用了一种全新的「强化学习」方法来训练 o1,使其能够像人类一样进行逐步思考,花费更多时间来解决问题。通过这种方式,o1 学会了完善自己的思维过程,尝试不同的策略,并能识别和纠正自己的错误。

这些特点总结如下:

o1模型测评表现

为了验证 o1 的能力,OpenAI 使用了国际奥林匹克数学资格考试进行测试,结果显示 o1 的得分高达 83%,而 GPT-4o 仅为 13%。

例如,困扰 ChatGPT 和其他 AI 机器人的「Strawberry 有几个 r」问题,o1 能够正确回答,但在「9.8 和 9.11 哪个大」的经典难题上依然表现不佳。

虽然 o1 目前还不具备浏览网页或处理文件和图像的能力,但在解决复杂问题上的表现已经令人瞩目。

不过,o1 在解决实际问题时展现了强大的逻辑推理能力,比如网友 @howie_serious 用 o1 模型做 2024 年高考数学卷

除了证明题没有测试外,其他题目均答对。

再来看下它对高中的微积分的题目解答推理效果如何:

可以看到推理清晰,也完美解答了问题!

文字识别

对于o1的文字识别效果,目前来看效果不是很理想,不确定是否是中文的原因,我们以徐志摩的散文进行测试,提示词如下

你是一名非常有经验的作家,请根据徐志摩的《陌上花开》的内容,
仿照写一篇相似的诗歌,但诗歌中的词语相似度不能超过20%:
轻轻的我走了,正如我轻轻的来;
我轻轻的招手,作别西天的云彩。
那河畔的金柳,是夕阳中的新娘;
波光里的艳影,在我的心头荡漾。
软泥上的青荇,油油的在水底招摇;
在康河的柔波里,我甘心做一条水草!
那榆荫下的一潭,不是清泉,是天上虹;
揉碎在浮藻间,沉淀着彩虹似的梦。
寻梦?撑一支长篙,向青草更青处漫溯;
满载一船星辉,在星辉斑斓里放歌。
但我不能放歌,悄悄是别离的笙箫;
夏虫也为我沉默,沉默是今晚的康桥!
悄悄的我走了,正如我悄悄的来;
我挥一挥衣袖,不带走一片云彩。

gpt4o测试结果

gpt o1-preview测试结果

gpt o1-mini测试结果

从结果来看生成的文字逻辑及合理性并没有得到多大提升,也可能是chatgpt对于中文的含义理解还不够,相信以后随着更多的知识库训练能让它下个版本得到进一步提升!

o1模型的产品定价

开发人员可以通过 API 调用 o1 模型,输入 tokens 每百万个价格为 15 美元(约合人民币 106.75 元),输出 tokens 每百万个价格为 60 美元(约合人民币 427 元),远高于 GPT-4o 的价格。

尽管价格较高,o1 的性能提升无疑使其在市场上具有竞争力。

经常关注我的老粉都知道,我的AI工具(https://ai.quanyouhulian.com/#/chat/1002)后台服务器是直接部署在英国,是直接使用的原生接口,**此o1目前已经适配完成!受限制于价格问题,后期针对部分高级用户开放o1体验权限!**

官网API接口调用定价

也可以直接使用chatgpt原生网页(https://openai.com/o1/)去使用,**打开需要特殊方式,如何访问可以翻看我之前文章或者进到AI工具去查看**

新模型的因为推理成本的原因,使用次数受到了大大的限制。o1-preview 的每周限制使用条数为 30 条消息

OpenAI 没有具体说明 o1-mini 的参数量有多大,但通过技术文档可以看出,o1mini 版,和 o1 版上下文长度没有区别,甚至最大输出 token 数更高。

o1模型社区反馈与应用实例

数学家陶哲轩表示,o1 模型的体验类似于指导一个水平一般但不算太无能的研究生。虽然 o1 在处理最复杂的数学研究任务时仍然表现不佳,但其在其他领域的表现已经令人刮目相看。

网友 @real_kai42 尝试用 o1 模型解读加密文,经过 76 秒的思考,最终得出正确答案,展现出强大的逻辑推理能力。

此外,还有网友用 o1 模型在不到一分钟的时间内创建了一个 3D 版的贪吃蛇游戏

甚至搭配近期爆火的代码神器 Cursor 创建了一个 iOS 天气 APP,全程用时不到 10 分钟

o1模型工作原理

安全性与未来发展

在使用 o1 模型时,OpenAI 对用户的行为进行了严格监控。**如果用户试图询问 o1 模型详细的思考过程及步骤,OpenAI 将发出警告邮件,甚至有部分网友因为试图「套话」o1 模型的完整思维链(CoT)而遭到封号**。

OpenAI 解释说,公司内部需要监测模型的思维过程,因此不能在这些原始 tokens 中加入安全限制,也就不方便让用户看到。

据《财富》杂志报道,OpenAI CEO Sam Altman 在一次全公司会议上透露,公司复杂的非营利性企业结构将发生变化,预计在明年某个时候会有新的进展

未来的挑战与机遇

面对 Claude 3.5 等竞争对手的市场蚕食,OpenAI 通过发布 o1-preview(高级推理)和 o1-mini(更快的推理速度)两个版本,意在重新夺回市场份额。

o1 模型通过强化学习方法进行训练,能够在回答问题之前进行深入思考,并生成内部推理链。**模型在处理科学、编程和数学问题上展现出了超越以往模型的能力,在某些领域甚至超过了人类专家**。

结语

OpenAI o1 模型的发布无疑是人工智能领域的一大进步。虽然目前仍有一些功能尚未完善,但其在复杂推理和逻辑分析上的卓越表现已经为未来的发展奠定了坚实的基础。随着 AI 技术的不断进步,我们有理由期待 o1 在更多应用场景中展现出其强大的能力。

OpenAI o1 模型不仅是技术上的突破,更是对未来人工智能应用的一次重要探索。无论是科学研究、软件开发还是教育辅导,o1 都展现出了巨大的潜力。未来,**随着技术的不断成熟,o1 有望在更多领域发挥重要作用,推动人工智能的发展迈向新的高度。**

end

今天的分享就到这里了,大家可以根据自己需求选择合适的AI数字人,喜欢的小伙伴请在下方免费的?点赞+在看


关注我,带你掌握前沿科技,轻松应对未来挑战


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI GPT-o1 AI大模型 强化学习 推理能力
相关文章