夕小瑶科技说 4小时前
OpenAI开源GPT-OSS,英伟达发论文喊话:小模型才是Agentic的未来!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布可在本地运行的GPT-OSS开源模型,标志着其在小模型赛道的发力。国内大厂如阿里、腾讯也积极开源小模型,NVIDIA则发表论文称小模型是Agentic AI的未来。小模型参数量低于100亿,可部署在消费级电子设备上,推理速度快、成本低,更适合模块化、分工明确的Agent架构。OpenAI和NVIDIA的行动表明,竞争焦点已从比拼参数量转向卷成本、部署和专精化。

🔍 OpenAI开源了GPT-OSS模型,这是一个可在本地运行的o4-mini级别开源模型,标志着OpenAI在小模型赛道的发力。

💡 小模型(SLM)参数量低于100亿,可部署在消费级电子设备上,推理速度快、延迟低,满足单用户的实时需求。

💰 小模型成本低廉,每次推理消耗的资源仅为大模型(LLM)的十分之一到三十倍,微调时间也大大缩短。

🤖 小模型灵活高效,更适合模块化、分工明确的Agent架构,每个任务都找一个合适的小模型拼装组合,像是搭积木一样。

🔄 目前多数Agent框架使用一个语言模型(LM)承担所有认知任务,而小模型范式下,语言模型退居二线,由一个叫做Controller的组件负责调度、协调。

原创 R.Zen 2025-08-06 21:40 北京

今天凌晨,OpenAI 发布了 GPT-OSS,可在本地运行的 o4-mini 级别开源模型。

GPT-OSS 是 OpenAI 在 GPT-2 后,时隔 6 年第一次开源动作。除了开源,还释放了一个信号,OpenAI 也下场开启小模型赛道的竞争。

巧的是,国内的大厂们最近发布小模型的动作也非常频繁。

阿里、腾讯不断开源小号轻量模型(0.5B-14B),Qwen3(0.6B / 1.7B / 4B / 8B),腾讯混元团队也发布了四款尺寸从 0.5B 到 7B 不等的小模型,同样适合边缘设备与本地推理,面向企业应用。

最近,NVIDIA Research 也发表了一篇在圈内广泛讨论的论文,直接喊出了小模型才是 Agentic AI 的未来。

论文标题:

《Small Language Models are the Future of Agentic AI》。

论文地址:

https://arxiv.org/abs/2506.02153v1

论文的核心观点非常明确:未来真正实用且高效的 AI 智能体,一定来自更小、更轻量、更高效的模型。

在这两个相近时间点不约而同地加码小模型,一个从实际产品吸引眼球,一个从学术端打破思维线程。

这里我们先给出小模型的概念:

    SLM(小语言模型)

      可以部署在普通消费级电子设备上(如手机、笔记本电脑)。

      推理速度快、延迟低,满足单用户的实时需求。

      参数量一般低于 100 亿。

    LLM(大型语言模型)

      不符合上述条件的语言模型,通常参数超过百亿乃至千亿级。

那么,小模型真的能够取代我们如今广泛使用的大模型吗?

NVIDIA 这篇文章给出了明确的答案:完全可以。理由其实很朴素也很现实。

    首先,它已经足够强大。

    微软的 Phi-2 模型只有 27 亿参数,实际性能已经超过了不少 300 亿参数的老牌大模型。NVIDIA 自己也拿出了 Hymba 和 Nemotron-H 系列,在推理准确度上交出了非常亮眼的成绩单。甚至 Huggingface 的 SmolLM2、Salesforce 的 xLAM,也都在特定任务上表现出比 GPT-4o、Claude 更可靠的响应能力。这些都说明,只要不是过分复杂或依赖知识密度的任务,小模型已经可以胜任。

    小模型便宜。
    不是稍微便宜一点,而是成本数量级的差异。大模型每一次推理,消耗的资源是小模型的十到三十倍。更别说,微调一个 LLM 可能需要几周时间、几十张高端 GPU,而小模型几个小时就能在消费级硬件上调好。而且小模型可以部署在本地,省去了云端基础设施的绑定与隐私担忧,也更容易合规。

    最重要的是,小模型灵活、高效。
    它更容易被模块化、更适合分工明确的 Agent 架构:一个 Agent 不再是一个模型承担所有认知任务,而是每一个任务都找一个合适的小模型拼装组合,像是搭积木一样。
    比如说这张图,对比了两种截然不同的智能体架构

    左边是目前大多数 Agent 框架使用的方式,语言模型(LM)像个全能助理,负责所有的事情:既要接收人类输入、理解意图,又要决定调用哪个工具、怎么组合多个接口,有时候甚至还要再唤起另一个语言模型来处理中间结果。整条链条从头到尾都靠一个大脑来“思考”——听上去很聪明,实际上特别累。每次运行都要重新加载上下文、重新推理一遍流程,这就像你每天都要从零学会做饭、买菜、洗衣、打扫,不能有一点自动化。
    而右边的设计,是作者主张的新范式:把大脑“劈开”。
    语言模型退居二线,只保留它最擅长的角色,比如:和人聊天、填写结构化信息、执行某个子任务。而系统的“大脑”换成了一个叫做 Controller 的组件,它不需要理解语言,只负责调度、协调谁干什么、什么时候调用哪个工具或模型。
    这不仅让 Agent 更轻、更稳、更省钱。语言模型再也不用承担整个世界,而是被“组件化”了——这正是小模型之所以适合 Agent 系统的最大逻辑基础。

    一个 Agent 执行任务,不需要理解整个人类世界,它只要干好“调用 API”这件事就行。而这种事,用大模型处理,是在浪费资源,用小模型,是刚刚好。

而至于为什么企业还在选择用 LLM?

可能只是为了复用云基础设施才一直依赖 LLM,不是因为 LLM 更好用。

在三个真实开源智能体系统(MetaGPT、Open Operator、Cradle)的评估中,他们发现:60%-70% 的 LLM 调用可以用 SLM 替代,性能几乎不损,成本立降一个量级。

这套逻辑和 Sam Altman 的“本地可运行模型”发布构成强共振。

小模型已经不是“简配版大模型”,而是新范式的核心。OpenAI 和 NVIDIA 几乎在同一时间出手,竞争的焦点也从比拼参数量,转向了卷成本、部署、专精化。

最后,在论文里作者团队提出了几个疑问,欢迎在评论区讨论:

争论一:LLM 的普适语言理解永远更强。

争论二:LLM 集中化服务规模经济更便宜。

争论三:资本与基础设施已押注集中式 LLM,先发、生态惯性大。

你觉得呢?

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 小模型 AI
相关文章