OpenAI开源GPT-OSS，英伟达发论文喊话：小模型才是Agentic的未来！

原创 R.Zen 2025-08-06 21:40 北京

今天凌晨，OpenAI 发布了 GPT-OSS，可在本地运行的 o4-mini 级别开源模型。

GPT-OSS 是 OpenAI 在 GPT-2 后，时隔 6 年第一次开源动作。除了开源，还释放了一个信号，OpenAI 也下场开启小模型赛道的竞争。

巧的是，国内的大厂们最近发布小模型的动作也非常频繁。

阿里、腾讯不断开源小号轻量模型（0.5B-14B），Qwen3（0.6B / 1.7B / 4B / 8B），腾讯混元团队也发布了四款尺寸从 0.5B 到 7B 不等的小模型，同样适合边缘设备与本地推理，面向企业应用。

最近，NVIDIA Research 也发表了一篇在圈内广泛讨论的论文，直接喊出了小模型才是 Agentic AI 的未来。

论文标题：
《Small Language Models are the Future of Agentic AI》。
论文地址：
https://arxiv.org/abs/2506.02153v1

论文的核心观点非常明确：未来真正实用且高效的 AI 智能体，一定来自更小、更轻量、更高效的模型。

在这两个相近时间点不约而同地加码小模型，一个从实际产品吸引眼球，一个从学术端打破思维线程。

这里我们先给出小模型的概念：

SLM（小语言模型）：

可以部署在普通消费级电子设备上（如手机、笔记本电脑）。

推理速度快、延迟低，满足单用户的实时需求。

参数量一般低于 100 亿。

LLM（大型语言模型）：

不符合上述条件的语言模型，通常参数超过百亿乃至千亿级。

那么，小模型真的能够取代我们如今广泛使用的大模型吗？

NVIDIA 这篇文章给出了明确的答案：完全可以。理由其实很朴素也很现实。

首先，它已经足够强大。

微软的 Phi-2 模型只有 27 亿参数，实际性能已经超过了不少 300 亿参数的老牌大模型。NVIDIA 自己也拿出了 Hymba 和 Nemotron-H 系列，在推理准确度上交出了非常亮眼的成绩单。甚至 Huggingface 的 SmolLM2、Salesforce 的 xLAM，也都在特定任务上表现出比 GPT-4o、Claude 更可靠的响应能力。这些都说明，只要不是过分复杂或依赖知识密度的任务，小模型已经可以胜任。

小模型便宜。
不是稍微便宜一点，而是成本数量级的差异。大模型每一次推理，消耗的资源是小模型的十到三十倍。更别说，微调一个 LLM 可能需要几周时间、几十张高端 GPU，而小模型几个小时就能在消费级硬件上调好。而且小模型可以部署在本地，省去了云端基础设施的绑定与隐私担忧，也更容易合规。

最重要的是，小模型灵活、高效。
它更容易被模块化、更适合分工明确的 Agent 架构：一个 Agent 不再是一个模型承担所有认知任务，而是每一个任务都找一个合适的小模型拼装组合，像是搭积木一样。
比如说这张图，对比了两种截然不同的智能体架构。

左边是目前大多数 Agent 框架使用的方式，语言模型（LM）像个全能助理，负责所有的事情：既要接收人类输入、理解意图，又要决定调用哪个工具、怎么组合多个接口，有时候甚至还要再唤起另一个语言模型来处理中间结果。整条链条从头到尾都靠一个大脑来“思考”——听上去很聪明，实际上特别累。每次运行都要重新加载上下文、重新推理一遍流程，这就像你每天都要从零学会做饭、买菜、洗衣、打扫，不能有一点自动化。
而右边的设计，是作者主张的新范式：把大脑“劈开”。
语言模型退居二线，只保留它最擅长的角色，比如：和人聊天、填写结构化信息、执行某个子任务。而系统的“大脑”换成了一个叫做 Controller 的组件，它不需要理解语言，只负责调度、协调谁干什么、什么时候调用哪个工具或模型。
这不仅让 Agent 更轻、更稳、更省钱。语言模型再也不用承担整个世界，而是被“组件化”了——这正是小模型之所以适合 Agent 系统的最大逻辑基础。

一个 Agent 执行任务，不需要理解整个人类世界，它只要干好“调用 API”这件事就行。而这种事，用大模型处理，是在浪费资源，用小模型，是刚刚好。