原创 R.Zen 2025-08-06 21:40 北京
今天凌晨,OpenAI 发布了 GPT-OSS,可在本地运行的 o4-mini 级别开源模型。
GPT-OSS 是 OpenAI 在 GPT-2 后,时隔 6 年第一次开源动作。除了开源,还释放了一个信号,OpenAI 也下场开启小模型赛道的竞争。
巧的是,国内的大厂们最近发布小模型的动作也非常频繁。
阿里、腾讯不断开源小号轻量模型(0.5B-14B),Qwen3(0.6B / 1.7B / 4B / 8B),腾讯混元团队也发布了四款尺寸从 0.5B 到 7B 不等的小模型,同样适合边缘设备与本地推理,面向企业应用。
最近,NVIDIA Research 也发表了一篇在圈内广泛讨论的论文,直接喊出了小模型才是 Agentic AI 的未来。
论文标题:
《Small Language Models are the Future of Agentic AI》。
论文地址:
论文的核心观点非常明确:未来真正实用且高效的 AI 智能体,一定来自更小、更轻量、更高效的模型。
在这两个相近时间点不约而同地加码小模型,一个从实际产品吸引眼球,一个从学术端打破思维线程。
这里我们先给出小模型的概念:
SLM(小语言模型):
可以部署在普通消费级电子设备上(如手机、笔记本电脑)。
推理速度快、延迟低,满足单用户的实时需求。
参数量一般低于 100 亿。
LLM(大型语言模型):
不符合上述条件的语言模型,通常参数超过百亿乃至千亿级。
那么,小模型真的能够取代我们如今广泛使用的大模型吗?
NVIDIA 这篇文章给出了明确的答案:完全可以。理由其实很朴素也很现实。
首先,它已经足够强大。
微软的 Phi-2 模型只有 27 亿参数,实际性能已经超过了不少 300 亿参数的老牌大模型。NVIDIA 自己也拿出了 Hymba 和 Nemotron-H 系列,在推理准确度上交出了非常亮眼的成绩单。甚至 Huggingface 的 SmolLM2、Salesforce 的 xLAM,也都在特定任务上表现出比 GPT-4o、Claude 更可靠的响应能力。这些都说明,只要不是过分复杂或依赖知识密度的任务,小模型已经可以胜任。
小模型便宜。
不是稍微便宜一点,而是成本数量级的差异。大模型每一次推理,消耗的资源是小模型的十到三十倍。更别说,微调一个 LLM 可能需要几周时间、几十张高端 GPU,而小模型几个小时就能在消费级硬件上调好。而且小模型可以部署在本地,省去了云端基础设施的绑定与隐私担忧,也更容易合规。
最重要的是,小模型灵活、高效。
它更容易被模块化、更适合分工明确的 Agent 架构:一个 Agent 不再是一个模型承担所有认知任务,而是每一个任务都找一个合适的小模型拼装组合,像是搭积木一样。
比如说这张图,对比了两种截然不同的智能体架构。
左边是目前大多数 Agent 框架使用的方式,语言模型(LM)像个全能助理,负责所有的事情:既要接收人类输入、理解意图,又要决定调用哪个工具、怎么组合多个接口,有时候甚至还要再唤起另一个语言模型来处理中间结果。整条链条从头到尾都靠一个大脑来“思考”——听上去很聪明,实际上特别累。每次运行都要重新加载上下文、重新推理一遍流程,这就像你每天都要从零学会做饭、买菜、洗衣、打扫,不能有一点自动化。
而右边的设计,是作者主张的新范式:把大脑“劈开”。
语言模型退居二线,只保留它最擅长的角色,比如:和人聊天、填写结构化信息、执行某个子任务。而系统的“大脑”换成了一个叫做 Controller 的组件,它不需要理解语言,只负责调度、协调谁干什么、什么时候调用哪个工具或模型。
这不仅让 Agent 更轻、更稳、更省钱。语言模型再也不用承担整个世界,而是被“组件化”了——这正是小模型之所以适合 Agent 系统的最大逻辑基础。
一个 Agent 执行任务,不需要理解整个人类世界,它只要干好“调用 API”这件事就行。而这种事,用大模型处理,是在浪费资源,用小模型,是刚刚好。
而至于为什么企业还在选择用 LLM?
可能只是为了复用云基础设施才一直依赖 LLM,不是因为 LLM 更好用。
在三个真实开源智能体系统(MetaGPT、Open Operator、Cradle)的评估中,他们发现:60%-70% 的 LLM 调用可以用 SLM 替代,性能几乎不损,成本立降一个量级。
这套逻辑和 Sam Altman 的“本地可运行模型”发布构成强共振。
小模型已经不是“简配版大模型”,而是新范式的核心。OpenAI 和 NVIDIA 几乎在同一时间出手,竞争的焦点也从比拼参数量,转向了卷成本、部署、专精化。
最后,在论文里作者团队提出了几个疑问,欢迎在评论区讨论:
争论一:LLM 的普适语言理解永远更强。
争论二:LLM 集中化服务规模经济更便宜。
争论三:资本与基础设施已押注集中式 LLM,先发、生态惯性大。
你觉得呢?