原创奇绩创坛 2025-05-14 20:43 北京

AI 原生生产力（硅基生产力）时代正在到来

《奇绩大模型笔记》是奇绩基于内部搭建的通用智能分析和研究体系，为创业者整理的有关前沿技术创新和应用实践洞察的笔记。

上一篇大模型笔记系统梳理了通用智能发展中的变与不变，指出模型前沿已进入新的发展阶段，从学知识转向学思考。而其核心正是通过强化学习，让模型学会思考，做更长的推理，解决更复杂的问题。

伴随模型前沿的变化，我们愈发清晰地看到，通用智能带来的底层变革本质上重塑的是人类生产力的整个堆栈。AI 原生生产力的时代，正在到来。

本文提纲：

AI 原生生产力：核心是上下文理解与推理能力的突破

Agent 开发：四个值得创业者关注的趋势

内嵌沙盒与工具调用

从手工搭建到模型自主推理

工具栈与工具生态的高速发展

人与 Agent 的异步交互范式

从 Agent 到 Agency：护城河来自掌握上下文和提出好问题

由于技术和产业发展非常快，基于新的洞察，笔记内容也会不断更新迭代。为帮助用户更直观地理解，我们准备了与本次分享内容相关的完整 PPT 共 30 余页，可以扫描下方二维码获取。

如已提交创业营申请表，可点击阅读原文查看

﹀

正文

随着大模型技术不断演进，AI 原生生产力（硅基生产力）的时代正在开启。对创业者而言，要理解这一革命性变革背后的机会与挑战，需要回答三个问题：什么是 AI 原生生产力？它将如何改变企业决策、生产流程？又是如何通过 Agent 这一正在兴起的模型开发范式，在当前阶段得以落地推进的？

AI 原生生产力：

核心是上下文理解与推理能力的突破

首先，如何理解 AI 原生生产力（硅基生产力）？

过去，生产过程几乎依赖人类的先验知识与判断，工厂的决策模式主要依托“碳基大脑”。大致存在两种典型决策方式：一是将人的经验固化为规则，通过代码写入设备中运行。但由于客户需求、上游供应与设备状态常常变化等，这种方式适应性差，每次调整都需要手动修改代码，既昂贵又低效；二是采用不固定的标准作业流程（SOP），由人工根据现场情况进行判断决策。例如客户来访时，需由专人接待，再由相关部门进行研究与协同推理，最终作出响应。

而在 AI 原生生产力体系中，Token 正成为新时代的“生产原料”。从某种意义上看，当前企业对算力的投资，本质上类似于建设一座“硅基工厂”或“硅基设备”，目的是让生产流程变得更加有效。相较于碳基生产力，硅基生产力的优势可以体现在三个方面：一是能实现全天候不间断作业；二是能在极短时间内完成复杂决策，速度远超人类；三是具备大规模并行处理复杂协同任务的能力，这是传统人力组织难以比拟的。

当然，无论采用哪种决策方式，生产体系的核心都离不开对上下文（context）的理解。对推理而言，上下文就是一切。本质上，模型就是在对上下文进行建模，通过理解上下文来推断人类的意图、做推理，找到完成意图的路径，生成结果来满足人类意图。以工厂为例，上下文包含每个设备的操作方式、材料投放规则、工序排布逻辑等。这些信息是完成推理、做决策的前提。

但值得关注的是，上下文的理解永无止境。它涉及不同尺度（从夸克到宇宙），不同粒度（知识颗粒精度），以及不同维度（多领域，多维度）。同时，目前来看，强化学习仍需与有监督微调（SFT）协同配合。以 DeepSeek R1 的训练流程为例，其采用多轮 SFT 与 RL 交替训练策略，在提升模型指令理解与多步推理能力方面发挥了关键作用。

Agent 开发：

四个值得创业者关注的趋势

随着模型推理能力的持续增强，AI 开始从“被动响应”走向“主动执行”。这也催生了 Agent 作为模型开发范式的兴起，成为现阶段承载推理能力落地的关键形式。

当前，Agent 作为模型开发的新范式，正处于井喷式发展的阶段。这正是得益于强化学习等关键技术的突破，模型开始逐步具备学习更多、更长上下文，将不同领域上下文联系起来解问题，以真正承担起企业内推理（reasoning）任务的能力。当然，这一过程中仍有许多挑战，需探索突破性的解决方法。

具体而言，创业者可以关注以下四个 Agent 开发相关的趋势：

内嵌沙盒（Sandbox）和工具调用

一个值得关注的方向是内嵌沙盒，允许模型集成操作系统调用、搜索引擎查询、文件系统访问等外部工具模块。这一设计类似人脑，正如人在解一道复杂数学题时，会自然而然地选择使用纸和笔来做计算。

早期的大模型（如 o1）在完成类似“计算字母个数”这类简单任务时往往表现不佳，例如难以数清楚“strawberry”单词里有几个“r”，其原因就在于模型缺乏切换 tokenizer 的能力。内嵌沙盒，允许工具调用，可能是提升模型推理能力的关键。

注释：Tokenizer 是一种将原始输入（如文本、图像、音频）转化为模型可处理的离散 token 表达的机制。不同的切分方式（如按字母、词根或整词）决定了模型感知信息的颗粒度。如果模型只能基于单一 tokenizer 工作，缺乏在不同层级（如字符级与词级）之间自由切换的能力，那么在处理需要细粒度感知的任务时（如数清一个单词中某个字母出现几次），通常会表现不佳。

从手工搭建到模型自主推理

第二个值得关注的是，当前 Agent 能力一方面可以依赖从数据中学，另一方面也可以通过 LangChain 等方式手工搭建。对创业者而言，需要明确什么时候可以搭，什么时候该学。

OpenAI 的 Deep Research 并非手工搭建，而是基于互联网数据训练而成，其推理能力提升依赖于数据驱动的规模化学习。还有一些类似的产品采用的方式是其中一部分工具调用通过模型学习实现的，但仍存在手工搭建的部分。

如何做出是否可以手工搭建的判断？回答该问题的关键是，厘清哪些任务可以直接复用过往人类知识的沉淀。比如，有两类典型场景可作为参考：

人类先验知识极为确定，不必通过数据再学一遍的任务。如解量子力学中的薛定谔方程，其解法已被验证，可作为直接嵌入沙盒中，无需重新训练。

通过数据学的试错成本极高，同时该任务又已沉淀大量老师傅经验。比如中医诊断中，有些祖传配方经几代人验证和传承，若依靠数据学习，可能需付出高昂代价（误诊、治疗失败）。此类场景可以选择将老师傅的工作流以手工搭建的形式实现经验复用。

另外，还需关注 Agent 能独立完成推理步数的增长。METR（Model Evaluation & Threat Research）的研究发现，在过去六年中，前沿模型 Agent 在 50% 可靠性下可完成的任务长度（以人类专业人士完成这些任务所需时间衡量）大约每 7 个月翻一倍。

工具栈与工具生态的高速发展

当前，Agent 开发工具栈发展迅速，工具生态正在形成。比如，Anthropic 发布的 MCP（Model Context Protocol），其重要性在于解决了工具和工具之间的沟通问题。当前，OpenAI、Google、微软等多家企业均已宣布支持 MCP，同时每天有大量 MCP server 涌现，包括 Blender、Figma、Notion 等都推出了自己的 MCP server ，已然呈现出跨领域工具协同的生态雏形。MCP 协议官方仓库在 24 年 11 月发布后的 4 个月内 GitHub 星标量就突破了 2.5 万（现已超过 4.5 万）。

人与 Agent 的异步交互范式

另一个需关注的趋势是，随着 Agent 可以独立做任务的时间越来越长，推理步数越来越多，人机协作正向异步交互发展。

过去，人与模型之间以对话的形式大多是即时交互——提问、回应、再提问、再回应。但随着 Agent 能独立完成任务的深度和复杂度不断提升，未来人类只需要给予其一定任务完成时间，做完之后再回顾结果。当前，Deep Research 用户中已经开始出现这样一个场景：人们吃完晚饭后打开手机，不是等待 AI 回答一个问题，而是查看他们的 Deep Research 做完指定的分析任务花了多长时间。这种协作形态将越来越常见。当然，这只是早期阶段，未来一定有更高效、更自然的人机协作模式。

回顾过往计算机产业发展历程，交互革命往往会产生巨大价值。比如，PC 时代的鼠标、键盘交互范式催生了微软，移动互联网时代的指尖交互成就了苹果。这次异步交互（asynchronous interaction）有可能诞生伟大的企业，其中有大量创新机会。