刘高畅/李可夫 2025-04-20 13:19 上海
SCALING LAW仍然延续
OpenAI发布o3和o4-mini,强化学习Scale继续。4月16日,OpenAI 发布了两款突破性的模型:o3和o4-mini ,它们能通过图像进行推理,并可自主调用多种工具。o3是OpenAI 最强大的推理模型,在包括 Codeforces、SWE-bench和MMMU在内的基准测试中设定了新的SOTA。在困难的现实任务中比o1犯的重大错误少20%,尤其是在编程、商业/咨询和创意构思等领域表现出色。o4-mini是一种较小的模型,针对快速、经济高效的推理进行了优化。o3和o4-mini 通常比其前辈 OpenAI o1和 o3-mini更智能、更经济。在o3的开发过程中,OpenAI观察到大规模强化学习呈现出与预训练中相同的“计算量越大,性能越好”的趋势。同时模型的性能也会随着思考时间的增加而持续提升。
o3与o4mini展现强大视觉推理与工具使用能力。1)视觉推理:o3和o4 mini模型首次能够将图像直接整合到它们的思维链中。模型可以动态操作图像,在推理过程中进行旋转、缩放或变换。视觉推理能力还能和 Python 数据分析、网络搜索、图像生成等其他工具协同工作,创造性地、有效地解决更复杂的问题,为用户多模态Agent体验。2)工具使用: o3 和 o4-mini 可以完全访问 ChatGPT 中的工具,并通过 API 中的函数调用访问用户自己的自定义工具。这些模型经过训练,能够推理如何解决问题,选择何时以及如何使用工具,以正确的输出格式在通常不到一分钟快速生成详细而周到的答案。模型能够处理需要访问最新信息的任务,超出模型的内置知识、扩展推理、综合和跨模态的输出生成。OpenAI 还发布了 Codex CLI,一个可以从终端运行的轻量级编码Agent。
MCP影响力扩大,Agent生态构建加速。MCP(模型上下文协议)是一种由Anthropic开源的协议,旨在标准化如何为大模型提供上下文。可以将MCP想象成 AI Agent的 USB-C接口:为大模型提供了一种连接到各种工具和数据源的统一方法。MCP旨在替换碎片化的Agent代码集成,从而使 AI 系统更可靠,更有效。通过建立通用标准,服务商可以基于协议来推出它们自己服务的 AI 能力,从而支持开发者更快的构建更强大的 AI 应用。开发者也不需要重复造轮子,通过开源项目可以建立强大的 AI Agent 生态。 MCP 最早由 Anthropic开源,目前已有越来越多公司和开发人员正在加入 MCP协议,如谷歌、OpenAI、腾讯、阿里。 我们认为MCP协议影响力的扩散有助于降低各领域Agent开发难度,加速AI应用落地。
建议关注:
IAAS:寒武纪、海光信息、阿里巴巴、奥飞数据、科华数据、海南华铁、云赛智联、潍柴重机、玉柴国际、弘信电子、协创数据、圣阳股份、润建股份、深信服、神州数码、深桑达、品高股份、金山云、南都电源、云天励飞、优刻得、云从科技、浪潮信息、中科曙光、太极股份、首都在线、杭钢股份、数据港、南兴股份、华策影视、顺网科技、恒为科技、网宿科技、朗科科技等。
垃圾发电:旺能环境、盈峰环境、瀚蓝环境、军信股份等
SAAS:金山办公、用友网络、金蝶国际、泛微网络、鼎捷数智、宇信科技、京北方、致远互联、金桥信息、汉得信息、朗新集团、上海钢联、新致软件、同花顺、萤石网络、润达医疗、中科金财、恒生电子、星环科技、卫宁健康、创业慧康、软通动力、光云科技、科大讯飞、万兴科技、海天信息、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、嘉和美康、新大陆、新开普等。
互联网大厂AI链:寒武纪、恒玄科技、孩子王、天键股份、润欣科技、实丰文化、乐鑫科技、萤石网络、中芯国际、润泽科技、欧陆通、华懋科技、浪潮信息、中兴通讯、中科曙光、兆易创新、国光电器、法本信息、亚康股份、申菱环境、兆龙互连等。
军工AI:能科科技、品高股份、普天科技、海格通信等。
脑机接口:诚益通、倍轻松、三博脑科等。
风险提示:AI技术迭代不及预期风险、宏观经济风险、行业竞争加剧风险
4月16日,OpenAI 发布了两款突破性的模型:o3和o4-mini,它们能通过图像进行推理,并可自主调用多种工具,是OpenAI迄今为止发布的最智能的模型,代表着 ChatGPT 能力的一次飞跃。
模型首次能够智能地使用和组合ChatGPT 中的所有工具——包括搜索网页、使用 Python 分析上传的文件和其他数据、对视觉输入进行深度推理,甚至生成图像。至关重要的是,这些模型经过训练,能够推理何时以及如何使用工具,以正确的输出格式生成详细而周到的答案(通常在一分钟内完成),从而解决更复杂的问题。这使得它们能够更有效地处理多方面的问题,朝着更具智能性的ChatGPT 迈进了一步,它可以独立地代表用户执行任务。最先进的推理能力与完全的工具访问权限相结合,在学术基准测试和实际任务中显著提升了性能,在智能性和实用性方面树立了新的标杆。
o3是OpenAI 最强大的推理模型,在包括Codeforces、SWE-bench(无需构建自定义模型特定支架)和 MMMU 在内的基准测试中设定了新的 SOTA。它非常适合需要多方面分析且答案可能不是立即显而易见的复杂查询。它在分析图像、图表和图形等视觉任务中表现尤为出色。在外部专家的评估中,o3 在困难的现实任务中比OpenAI o1犯的重大错误少20%,尤其是在编程、商业/咨询和创意构思等领域表现出色。早期测试人员强调了其作为思想伙伴的分析严谨性,并强调了其生成和批判性评估新假设的能力,尤其是在生物学、数学和工程学领域。
o4-mini是一种较小的模型,针对快速、经济高效的推理进行了优化,在其尺寸和成本方面实现了卓越的性能,特别是在数学、编码和视觉任务方面。在专家评估中,o4-mini 在非 STEM 任务以及数据科学等领域的表现均优于其前身 o3-mini。
外部专家评估人员认为,得益于智能化的提升和对网络资源的整合,这两种模型都比前代产品展现出更佳的指令遵循能力,并提供了更有用、更可验证的响应。与之前的推理模型迭代相比,这两个模型也应该会更加自然、更具对话性,尤其是在它们参考记忆和过往对话,使响应更具个性化和相关性的情况下。
成本与性能优化:o3和o4-mini 通常比其前辈 OpenAI o1和 o3-mini更智能、更经济。例如,在2025年AIME数学竞赛中,o3和o4-mini分别比 o1和 o3-mini性价比更高。
图表1:o3-mini 和 o4-mini在AIME和GPQA基准上的成本与性能对比 |
|
资料来源:OpenAI,国盛证券研究所 |
图表2:o1和 o3在AIME和GPQA基准上的成本与性能对比 |
|
资料来源:OpenAI,国盛证券研究所 |
强化学习能力持续扩展:
在o3 的整个开发过程中,OpenAI观察到大规模强化学习呈现出与GPT 系列预训练中相同的“计算量越大,性能越好”的趋势。同时,模型的性能会随着思考时间的增加而持续提升。
在延迟和成本与OpenAI o1 相同的条件下,o3在ChatGPT中提供了更高的性能,而且如果让模型思考更长时间,它的性能还会持续提升。
OpenAI还通过强化学习训练了这两个模型使用工具,不仅教会它们如何使用工具,还教会它们推理何时使用工具。它们能够根据期望结果部署工具,这使得它们在开放式情境中表现更佳,尤其是在涉及视觉推理和多步骤工作流程的情况下。
目前ChatGPT Plus、Pro和Team用户已经可以开始在模型选择器中看到 o3、o4-mini 和 o4-mini-high,同时OpenAI预计将在几周内发布o3-pro,并提供全面的工具支持。
o3和o4 mini模型首次能够将图像直接整合到它们的思维链中。它们不仅仅是看到图像,还能用它来思考。这开启了一种融合视觉和文本推理的全新问题解决方式,这体现在它们在多模态基准测试中展现出的顶尖性能上。人们可以上传白板照片、教科书图表或手绘草图,即使图像模糊、反转或质量低下,模型也能对其进行解读。借助工具,模型可以动态操作图像,在推理过程中进行旋转、缩放或变换。这些模型在视觉感知任务上实现了一流的准确率,使其能够解决以前无法解决的问题。
图表3:OpenAI模型分析图像案例 |
|
资料来源:OpenAI,国盛证券研究所 |
视觉推理能力还能和Python 数据分析、网络搜索、图像生成等其他工具协同工作,创造性地、有效地解决更复杂的问题,为用户多模态Agent体验。
图表4:视觉推理和python结合解决迷宫问题 |
|
资料来源:OpenAI,国盛证券研究所 |
OpenAI o3和o4-mini可以完全访问ChatGPT中的工具,并通过API中的函数调用访问用户自己的自定义工具。这些模型经过训练,能够推理如何解决问题,选择何时以及如何使用工具,以正确的输出格式在通常不到一分钟快速生成详细而周到的答案。
例如,用户可能会问:“加州夏季的能源使用量与去年相比如何?”模型可以搜索网络公共事业数据,编写 Python 代码进行预测,生成图表或图像,并解释预测背后的关键因素,并将多个工具调用串联起来。推理功能使模型能够根据遇到的信息做出反应和调整。例如,它们可以借助搜索引擎多次搜索网络,查看结果,并在需要更多信息时尝试新的搜索。
这种灵活的战略方法使模型能够处理需要访问最新信息的任务,超出模型的内置知识、扩展推理、综合和跨模态的输出生成。
图表5:o3和o1工具使用能力对比:数学 |
|
资料来源:OpenAI,国盛证券研究所 |
图表6:o3和o1工具使用能力对比:商业 |
|
资料来源:OpenAI,国盛证券研究所 |
图表7:o3和o1工具使用能力对比:科学 |
|
资料来源:OpenAI,国盛证券研究所 |
图表8:o3和o1工具使用能力对比:体育 |
|
资料来源:OpenAI,国盛证券研究所 |
图表9:o3和o1工具使用能力对比:视觉推理 |
|
资料来源:OpenAI,国盛证券研究所 |
OpenAI 还发布了一个新实验项目:Codex CLI。一个可以从终端运行的轻量级编码Agent,旨在最大限度地发挥 o3 和 o4-mini 等模型的推理能力,并即将支持 GPT-4.1 等更多API模型。用户可以通过将屏幕截图或低保真草图传递给模型,并在本地访问代码,从而从命令行体验多模态推理。
MCP(模型上下文协议)是一种开源协议,旨在标准化如何为大模型提供上下文。可以将MCP想象成 AI Agent的 USB-C接口:为大模型提供了一种连接到各种工具和数据源的统一方法。
传统上将AI统连接到外部工具涉及集成多个API。每个API 集成都意味着单独的代码、文档、身份验证方法、错误处理和维护。MCP旨在替换碎片化的Agent代码集成,从而使 AI 系统更可靠,更有效。通过建立通用标准,服务商可以基于协议来推出它们自己服务的 AI 能力,从而支持开发者更快的构建更强大的 AI 应用。开发者也不需要重复造轮子,通过开源项目可以建立强大的 AI Agent 生态。
MCP的架构主要包括以下几部分:
·MCP 主机:这些是需要访问外部数据或工具的应用程序(例如 Claude Desktop 或 AI 驱动的 IDE);
·MCP 客户端:它们与MCP服务器保持专用的一对一连接;
·MCP 服务器:轻量级服务器通过MCP公开特定功能,连接到本地或远程数据源;
·本地数据源: MCP 服务器安全访问的文件、数据库或服务;
·远程服务:基于互联网的 API 或 MCP 服务器访问的服务。
图表1:MCP架构示意图 |
|
资料来源:Claudemcp官网,国盛证券研究所 |
MCP最早由Anthropic开源,目前已有越来越多的公司和开发人员正在加入,可能成为未来 AI 工具交互的新标准。
图表1:MCP架构示意图 |
|
资料来源:Anthropic,X,腾讯云智能,新浪财经,国盛证券研究所 |
我们认为,MCP协议影响力的扩散有助于降低各领域Agent开发难度,加速AI应用落地。
建议关注:
IAAS:寒武纪、海光信息、阿里巴巴、奥飞数据、科华数据、海南华铁、云赛智联、潍柴重机、玉柴国际、弘信电子、协创数据、圣阳股份、润建股份、深信服、神州数码、深桑达、品高股份、金山云、南都电源、云天励飞、优刻得、云从科技、浪潮信息、中科曙光、太极股份、首都在线、杭钢股份、数据港、南兴股份、华策影视、顺网科技、恒为科技、网宿科技、朗科科技等。
垃圾发电:旺能环境、盈峰环境、瀚蓝环境、军信股份等
SAAS:金山办公、用友网络、金蝶国际、泛微网络、鼎捷数智、宇信科技、京北方、致远互联、金桥信息、汉得信息、朗新集团、上海钢联、新致软件、同花顺、萤石网络、润达医疗、中科金财、恒生电子、星环科技、卫宁健康、创业慧康、软通动力、光云科技、科大讯飞、万兴科技、海天信息、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、嘉和美康、新大陆、新开普等。
互联网大厂AI链:寒武纪、恒玄科技、孩子王、天键股份、润欣科技、实丰文化、乐鑫科技、萤石网络、中芯国际、润泽科技、欧陆通、华懋科技、浪潮信息、中兴通讯、中科曙光、兆易创新、国光电器、法本信息、亚康股份、申菱环境、兆龙互连等。
军工AI:能科科技、品高股份、普天科技、海格通信等。
脑机接口:诚益通、倍轻松、三博脑科等。
AI技术迭代不及预期风险:若AI技术迭代不及预期,则对产业链相关公司会造成一定不利影响。
宏观经济风险:若宏观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和产业链生产意愿,对整个行业将会造成不利影响。
行业竞争加剧风险:若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对目前行业内企业的增长产生威胁。
具体分析详见2025年4月20日发布的报告《OpenAI发布o3与o4-mini,视觉推理与工具使用突破》
分析师 刘高畅 分析师执业编号S0680518090001
特别声明:《证券期货投资者适当性管理办法》于2017年7月1日起正式实施。通过微信形式制作的本资料仅面向国盛证券客户中的专业投资者。请勿对本资料进行任何形式的转发。若您非国盛证券客户中的专业投资者,为保证服务质量、控制投资风险,请取消关注,请勿订阅、接受或使用本资料中的任何信息。因本订阅号难以设置访问权限,若给您造成不便,烦请谅解!感谢您给予的理解和配合。
重要声明:本订阅号是国盛证券计算机团队设立的。本订阅号不是国盛计算机团队研究报告的发布平台。本订阅号所载的信息仅面向专业投资机构,仅供在新媒体背景下研究观点的及时交流。本订阅号所载的信息均摘编自国盛证券研究所已经发布的研究报告或者系对已发布报告的后续解读,若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。本资料仅代表报告发布当日的判断,相关的分析意见及推测可在不发出通知的情形下做出更改,读者参考时还须及时跟踪后续最新的研究进展。
本资料不构成对具体证券在具体价位、具体时点、具体市场表现的判断或投资建议,不能够等同于指导具体投资的操作性意见,普通的个人投资者若使用本资料,有可能会因缺乏解读服务而对报告中的关键假设、评级、目标价等内容产生理解上的歧义,进而造成投资损失。因此个人投资者还须寻求专业投资顾问的指导。本资料仅供参考之用,接收人不应单纯依靠本资料的信息而取代自身的独立判断,应自主作出投资决策并自行承担投资风险。
版权所有,未经许可禁止转载或传播。