深度财经头条 2024年09月18日
中信证券:OpenAI o1推理升级,关注强化学习新机遇
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 发布了新的 o1 模型,该模型通过思维链和强化学习技术大幅提升了推理能力,尤其在代码、数学和科学等强逻辑领域表现出色。o1 模型可以将复杂任务分解成多个简单任务,并通过优化思维链来提升最终答案的逻辑性、综合性和准确性。该模型的发布将加速各领域应用落地,并推动算力产业链持续上升。

🤔 **模型升级:思维链和强化学习** o1 模型采用思维链技术,将复杂任务分解成多个简单任务,并通过强化学习优化每个任务的执行路径,最终提升答案的逻辑性和准确性。这使得 o1 模型在代码、数学和科学等强逻辑领域表现突出。例如,在 Codeforces 编程竞赛中,o1 模型的代码能力超过了 83% 的专业人士。

💪 **性能提升:代码、数学、科学领域显著进步** 相较于 GPT-4,o1 模型在代码、数学和科学领域展现出显著的性能提升。在数学领域,o1 模型在 2024 年美国数学邀请赛测试集上取得了 74% 的正确率,而 GPT-4 仅能解决 12% 的问题。在科学领域,o1 模型在 GPQADimond 测试集上的正确率达到 78%,超越了人类专家的 70% 水平。

🚀 **应用展望:加速各领域应用落地** o1 模型的发布将加速各领域应用落地,特别是代码生成、数学计算和科学研究等领域。o1 模型在代码生成方面的优势将进一步提升 AI 辅助开发效率,为开发者提供更强大的代码生成工具。此外,o1 模型在其他强逻辑领域的能力提升也将为相关领域的应用开发提供新的动力。


中信证券研报指出,OpenAI o1模型升级思维链和强化学习,重点提升模型推理性能,代码、数学、科学等强逻辑领域能力大幅提升,持续探索AGI实现新方式。新模型在训练和推理端同步推动算力需求倍增,算力产业链景气度持续上升;应用端进一步降低各领域应用开发成本,推理性能提升扩展强逻辑场景覆盖,加速各领域应用落地。建议持续关注相关领域的头部AI公司。

▍事项:北京时间9月13日凌晨, OpenAI发布o1模型;OpenAI o1具备复杂推理能力,代码、数学、科学领域达到顶尖水平。

o1可将任务拆解成多个简单任务,构成完整思维链并进行优化,提升最终回答的逻辑性、综合性、准确性。当前preview版本已开放给5级API用户,并将在下周向企业和学术用户优先开放。根据公司官网,编程方面,模型在Codeforces竞赛上超过83%的专业人员。数学方面,以2024年的美国数学邀请赛为测试集,o1单次生成可解决74%的问题,多次生成后进一步提升正确率到83%,而GPT-4只能解决12%的问题。科学方面,模型GPQA Dimond测试集正确率78%,超越人类专家70%水平。

▍技术解析:强化学习+LLM寻求最优路径,奖励模型泛化问题尚需验证。

参考OpenAI官网及DeepMind的论文Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters(Charlie Snell,Jaehoon Lee,Kelvin Xu等),我们推测o1模型将复杂任务拆解成多任务构成的思维链,并采用类似强化学习(RL)的模式,通过各节点行为优化寻求最优路径。其中,奖励模型决定优化方向,拥有明确评判标准的领域更具优势,因此o1模型在代码、数学、科学领域表现更优,而在写作、编辑等任务上表现暂时不及GPT-4o,未来奖励模型能否准确评估其他的输出结果,是相关技术路线发展的核心问题之一。

▍算力投入:强化学习带来算力投入和推理成本倍增。

根据OpenAI测算,训练和推理端用于强化学习的算力投入与模型效果依然成正比,大模型获得全新有效算力投入途径,有望带来数倍于传统大模型的算力需求。其中模型推理端算力需求增长显著,根据公司官网,当前o1-preview模型生成时间可达分钟级,API定价输入15美元/百万Token和输出60美元/百万Token,较GPT-4o输入5美元/百万Token和输出15美元/百万Token的定价有数倍增长。根据英伟达CEO黄仁勋在Communacopia + Technology会议上的发言,海外Blackwell系列需求旺盛,算力行业景气度持续上行。

▍应用展望:加速开发成本优化,Agent能力提升B端率先受益。

短期聚焦代码、数学、科学等强逻辑领域,其中AI代码生成将推动全领域开发效率提升。根据微软财报,海外GitHub Copilot Q1付费用户数超180万,同比,国内工商银行软开中心编码助手生成代码量占总代码量的比例超32%,o1模型代码能力,有望进一步提升AI辅助开发效率。未来模型通过奖励模型泛化有望扩展更多行业,加速对边缘行业和场景的覆盖,思维链结合工具使用、知识库等能力应用,可以形成更强Agent性能,服务企业汇总、分析、预警、预测、管理等强逻辑任务需求。

▍风险因素:

AI核心技术发展不及预期,AI被不当使用造成严重社会影响,企业数据安全风险,信息安全风险,行业竞争加剧。

▍投资策略:

OpenAI o1模型重点升级思维链能力,结合强化学习,提升代码、数学、科学等强逻辑领域能力,持续探索AGI实现方式。新模型在训练和推理端同步推动算力需求倍增,算力产业链景气度持续上升;应用端进一步降低各领域应用开发成本,推理性能提升扩展强逻辑场景覆盖,C端和B端应用有望加速。建议持续关注相关领域的头部AI公司。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI o1 模型 思维链 强化学习 AGI
相关文章