0x0 前言
五年之前,GPT‑3 掀开序幕时,Scaling Law 只意味着参数、数据、算力,规模即真理;五年之后,OpenAI o1 再度以 RL Scaling Law 开启新的纪元。在 Agent 爆发的前夜,借着读完 The Second Half 和 Welcome to the Era of Experience 后的兴致余温,斗胆猜想智能发展的路径,在此陈列,聊兹品评。
The Second Half 译文 by 拾象 & Welcome to the Era of Experience 译文 by 机器之心
0x1 上半场
从 DeepSeek 在春节给 Reading List 上强度算起,LLM 和 Agent 赛场角力日盛:先是 DeepSeek R1 和 Kimi K1.5 在 RL 的双星闪耀;接着 xAI Grok 3 和 OpenAI GPT 4.5 为超大规模参数军备竞赛点下了暂停;之后,是纷纷祭出 推理模型的 Anthropic Claude 3.7、Gemini 2.5 Pro、Meta Llama 4、Seed Thinking 1.5 们;未了还有在“Agent 元年”吹响冲锋号、带火了 MCP 的 Manus。热闹之余,需要清晰地理解推理能力实现的脉络和瓶颈。毕竟,推理正是这一轮聚变的核心。
0x10 Larger, Longer
Scaling Law 是此前的主旋律,似乎更大的模型总是可以带来更强的智能。然而,xAI Grok 3 和 OpenAI GPT 4.5 以成倍投入却没有换来多少用户对智能提升的感受。那么,可以说 Scaling Law 已经失效了么?
模型参数量 N | 训练数据量 D | 训练运算量 C |
source: epoch.ai 2025
得先澄清,单纯聚焦模型参数量 N
,可能是出于媒体传播的简化。实际上,模型性能通常与模型参数量 N
、训练数据量 D
和训练运算量 C
共同相关。同时,为了有效训练模型,训练数据量 D
需要与模型参数量 N
保持正比关系,而训练运算量 C
可使用经验公式大致估算。即,更大的模型依赖更多的优质数据,进而带来平方级增长的运算成本,并拉长模型迭代周期。
其次,Scaling Law 并未真正失效。事实上,随着参数规模和训练资源的持续增长,xAI Grok 3 与 OpenAI GPT-4.5 依然在多个维度上实现了显著的能力提升。问题的根源在于边际收益的递减:自 2023 年起,关于高质量训练数据接近枯竭的讨论日益频繁,数据减质增量,虚耗成本;同时,芯片供给紧张与算力竞争加剧,进一步推高了训练开销。在多重压力下,以参数规模扩展为核心的 Scaling Up 策略步履维艰,荣光难复。
在这样的背景下,OpenAI 于 2024 年 9 月 12 日推出了 o1-preview 模型。随着用户使用深度的不断加深,各家模型的 Context Length 也从早期的 2k 逐步扩展至 128k。而更长的上下文为模型带来了更充裕的思考空间,使 o1 能够在不显著增加参数量的前提下,通过更长的推理链条提升模型表现。这也标志着从 Training-Time Scaling Law 到 Test-Time Scaling Law 的范式转移。
source: AI Index Report 2025
128k tokens 的 Context Length 上限,虽然已足以覆盖中英文版《小王子》这样的中短篇文本,但距离容纳《新华字典》或《Bible》全本仍有不小差距。同时,如上图示,根据 AI Index Report 2025 的研究分析,许多模型在 Model Card 中标称的上下文长度远远高于其实际有效处理能力。这意味着模型仍无法稳定地利用超长上下文来执行复杂任务或多轮推理。
要提升模型对更长上下文的有效利用,不仅仍需要与之匹配的训练数据量和训练运算量支撑,还依赖结构设计与计算优化的持续演进。例如,Kimi 和 DeepSeek 就分别提出了 MoBA 和 NSA 方案,尝试通过分块处理、稀疏注意力、滑动窗口等策略优化上下文利用效率。可以预期,在 Chain-of-Thought 推理范式触顶之前,围绕 Context Length 的优化仍将是大模型竞争的前沿方向。
0x11 从猜想到思考
source: Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation
最早利用 context 赋予的思考空间的是结构化思考。let's think step by step
是故事的起点,在提示词中加入这简简单单的片段,就能显著模型在数学、逻辑、规划任务上的表现。CoT (Chain-of-Thought) 的本质,是鼓励模型将推理过程显式外化,输出结构清晰的中间步骤,而非直接给出猜测式的最终答案。随后出现了更多结构化思考的扩展:多采样投票的 CoT-SC,发散式多路径探索的 ToT (Tree-of-Thought),以及通过图结构聚合多路径的 GoT(Graph-of-Thought)。X-of-Thought 出现后,思考结构本身开始由模型自主生成,实现结构化思维的泛化。AutoGPT、BabyAGI 这类早期的 Autonomy Agent,本质上是用 Agent 框架巩固了结构化思考,围绕目标在多轮执行中,重构结构化组织的任务,探索路径,筛选可行方案。
为了进一步提升效果与效率,研究者将这些结构嵌入了搜索与学习机制。典型的代表是 MCTS (Monte Carlo Tree Search),它在 ToT 的基础上引入了 RL,通过 roll-out 多条候选路径,基于 reward 策略选择最优路线。这不仅是结构化地生成思路,更是结构化地学习:模型不再依赖单次生成的运气,而是能在交互式反馈中逐步习得更优的思考策略,从而提升整体决策质量与适应性。
但无论是 prompt 构造出的显式结构,还是 Agent 框架组织的任务流程,都面临一系列关键挑战:一是结构越复杂,对外部工具与模板的依赖越强,泛化能力受限;二是路径搜索虽有效,却计算成本高,难以推广至通用任务;三是思维结构往往是人手设计,而非模型内生,缺乏可迁移性和自适应能力。这些瓶颈共同指向一个问题:真正智能的系统,必须能够自主组织推理结构,并将其泛化为内在能力,而非依赖外部提示或模板。
0x12 推理的泛化
"A new series of reasoning models for solving hard problems. Available now." 是 OpenAI o1-preview 发布时的副标题,推理能力的突破正是近期一些列变革的起点。然而由于训练细节未公开,且缺乏对思考过程的展示,o1 未能在公众中引起与之匹配的关注。相较之下,DeepSeek R1 以简明扼要的论文和代码揭示了推理实现的 recipe,再加之直接展示了思考过程的产品设计,迅速征服了同行、震撼了用户,帮助 DeepSeek 顶着「服务器繁忙,请稍后再试。」的 debuff,实现 7 天 DAU 破亿的伟绩。
技术上,社区对基于规则的奖励系统的讨论显著多于泛化策略。然而,后者却是姚顺雨在文章中强调的变革要素 —— "More precisely: RL finally generalizes"。因此,这里花一点儿篇幅,借助论文 DeepSeek-R1 Thoughtology: Let's about LLM Reasoning 的图示,梳理 R1 推理能力习得和泛化的多个阶段。
上图白底:DeepSeek v3-base -> DeepSeek R1-Zero
- 仅涉及 RL,system prompt 并未用于诱导思考过程,reward 仅包含准确率和格式奖励,避免 reward hacking在鼓励模型输出更长响应时,基础模型所具备的反思能力更常显现,任务成功率亦随之上升训练好的 R1-Zero 经过可读格式拒绝采样,作为高质量 CoT 数据用于下一阶段的 SFT 训练
上图绿底:DeepSeek v3-base -> Model 2
- SFT 训练,除了使用 R1-Zero 采样数据外,还有 long CoT 示例或验证反思诱导的数据,并经由人工修订依然是 RL,依然仅有准确率和格式奖励,但聚焦编码、数学、科学和逻辑推理任务Model 2 CoT 出现语言不一致,混用规则奖励 & 基于 v3 的生成式奖励,拒绝采样了 600k 数据用于下轮训练
上图橙底:DeepSeek v3-base -> DeepSeek R1
SFT 训练,除了由 M2 拒绝采样生成的推理数据外,还引入了 200k V3 经 prompt 诱导 CoT 的非推理数据
全场景 RL,推理任务使用规则化奖励,通用则使用奖励模型拟合人类偏好
从训练轨迹可见,DeepSeek R1 的推理能力并非单靠规则化的 RL 即可达成,而是通过两轮拒绝采样、补充数据、SFT、RL 逐步实现了蕴含在 math、code 中的 pattern 的泛化。其中,对训练数据的精细修订、用于引导 CoT 的 prompt、对 RL 学习课程的选择和 RLHF,都是 “人” 这一要素在过程中的深度参与,甚至对训练数据的精细修订相传出自北大中文系的手笔。有趣的是,这种人为干预在一定程度上可能降低了模型输出的绝对正确性,但同时赋予了模型独特的“个性”,使用户在使用过程中产生了多样化的体验,所谓“各花入各眼”。这些不在开源之列的数据和认为干预,连带着其中蕴含的模型个性,乃是开源模型们背后的核心商业资产。
0x13 重构 Agent
推理泛化之后,如何将能力转化为 Agent 的效用提升,成为了几乎所有主力 AI 公司竞逐的焦点,DeepResearch、Operator 们陆续亮相。其中,Manus 虽非模型厂商而被质疑套壳,却敏锐地理解和捕捉了模型能力的溢出,抢跑 18 个月投入研发,内测发布只晚了 OpenAI Deep-Research 月余。Manus 凭借着出众的可视化呈现和任务执行的单步回溯,让公众对自备 Computer 的 Agent 能怎样自主完成任务有了直观而震撼的体验。于是破圈,洛阳码贵。
根据 Manus 提示词泄露风波后 CTO 季逸超的回应,Manus 采用 MAS (Multi-Agent System) 设计,包含 Planning、Execution、Verification 和 Tool 等职责的 Agent。这里结合 Manus Agent 的工作和协作机制,剖析推理泛化对 Decision、Context 和 Action 影响。
Decision
Autonomous agent | The orchestrator-workers workflow |
引用 Anthrophic Building effective agents 中的图示辅助理解 Execution Agent 和 Tool Agent 的运作机制。两者均采用了Autonomous Agent
机制,具备独立的 agent loop,能够自主感知任务状态并决策下一步行动。不过,决策过程仍有差异:
Execution Agent 延续了由 Planning Agent 所生成的结构化待办清单,作为任务推进和与用户协作的核心载体。它在执行时,同时承担 Orchestrator 与 Synthesizer 的角色,协调各类 Agent 的调用与结果整合;
Tool Agent 则完全摒弃了传统 workflow 中由人类编排的静态逻辑与条件分支。它能在调用失败时,基于当前上下文自动判断失败原因,自主尝试修复输入或调整参数,反复尝试直至成功或触达终止条件。其具备的局部恢复与鲁棒性,使系统对外部工具故障具备更强的容错能力;
新机制达成了类似于orchestrator-workers workflow
的协作效果,但不再依赖显式规则。Execution Agent 将包括 Planning 在内的其他模块统一视为可调用的 LLM Call,从而在系统结构上实现职责隔离,同时在 LLM 和 system prompt 层面实现差异化优化。这种松耦合的模块化设计,不仅降低了信息过载,也提升了原子任务的成功率,并在 Tool 接入方面保留了高扩展性。可以预见,Autonomous Agent
机制及其变种,将在面向多步长、非结构化目标的复杂任务中展现出更强的生命力。
Context
Prompt 并不是一种真正低门槛的交互媒介,既要求用户具备表达天分,也要求对模型能力边界有足够认知。但随着联网搜索与文件阅读等工具的接入,Agent 开始具备主动查找和整合信息的能力,Prompt Engineering 的负担开始减轻。而 Autonomous Agent 的出现则非常显著地减轻用户对 Agent 的信息喂养负担 —— 借助连续思考机制,原本由人类主导的信息补齐与查证工作,开始转由模型自动发起。尽管语义检索尚难替代精确查找,但在推理链条较长的任务中,其速度优势带来的上下文饱和度,已使许多推理结果具备参考价值。
Query Tool 是 Agent 主动补充信息的来源,完整的 Context 依赖完善的 Query Tool 体系。然而,在近乎无穷的信息来源面前是 Agent 有穷的上下文空间和注意力资源。当前的实践中,当工具种类突破 10 ~ 15 个时,Agent 的调用效率往往会显著下滑。尽管模型能力的增强可能逐步推高其“工具邓巴数”上限,系统设计仍需保持克制,谨慎在工具广度与调用精度之间权衡。若需进行角色或场景分层,也应尽可能降低 latent space 的割裂与信息折损。
与此同时,每一次检索与每一步生成本身也在引入偏差。思维路径的层层递进虽然增强了连贯性,但也意味着微小误差可能在推理过程中被不断放大,最终演变为重大的逻辑谬误。更何况,针对 AI 搜索的定向攻击已显端倪。这些偏差和攻击常常掩藏在 CoT 看似合理的叙述中,难以察觉。为此,Agent 侧需要发展自我审校机制,例如交叉验证;而用户也必须掌握足够的判断力,才能识别幻觉,抽离谬误。
Action
在信息充分、规划清晰之后,Agent 还需依靠 Action Tools 落地意图。Manus 首先是设置了独立的 Coding Agent,专责完成如数据分析、脚本生成、网页搭建等工作,代码由 Agent 根据任务即时编写,部分承担工具创造职责。这部分原本由人类承担的角色,也正在被逐步自动化。其次,Manus 集成了 E2B,为 Agent 配备了 virtual computer,将终端命令、浏览器操作、文件读写等能力封装于受控环境中,既保障了对传统软件生态的充分利用,又允许用户实时监控 Agent 行动,必要时介入或终止,避免资源损耗与权限滥用。
source: Daily Dose of DS
不论是不是被 Manus 带火的,Anthropic 在 24 年 11 月就已经推出的 MCP (Model Context Protocol) 在 3 月之后突然倍受厂商和媒体的青睐,不乏有将 MCP 誉为「Agentic AI 中间层最优解」的声音。一如此前对 Apple Intelligence 的分析,MCP 的本质是对 context 和 tool 的连接。MCP 本身并不能提升 tool-use 的成功率,也不提供跨信任域调用所应有的身份审核与安全鉴权能力,亦无法改变以广告为本的平台型业务不愿被纳入生态的商业格局。然而,随着 Github、Cursor、Trae、ElevenLabs 们纷纷增加对 MCP 的支持,工具调用的 Calling Convention 由工具们自行保证,OpenAI、Gemini、Qwen3 们就可以聚焦调用成功率的提升,而 Agent 开发者们也可以以更低的成本实验合适的模型和工具。MCP 已然是比 Apple Intelligence 成功得多的去中心化生态。
展望未来,若 Agent 广泛应用,传统软件生态也将面临新的适配挑战。它们或许需要不再仅面向人类用户设计界面,而是同时服务于用户与其伴生 Agent —— 前者关心交互体验,后者则追求精准控制与高效调用。这意味着,软件可能需要新增面向 Agent 的交互界面、独立的上下文与权限通道,并支持在关键节点触发通知、发起资源申请等用户协调机制。当 Agent 成为常驻系统角色,产品设计的第一原则,也将从「以人为中心」扩展为「以人机协作为中心」。
P.S OpenAI 近日尝试 ChatGPT 账号打通第三方 App:Sign in with ChatGPT interest form
P.S 拾象文中分级剖析了现有系统的「隐性人类假设」:AI-Native 的 Infra 演化路线:L0 到 L5
source: A new Moore's Law for AI agents
这是信息广度、思考深度与执行质量上的全面跃升。在这些进步的加持下,Agent 完成更长任务的能力快速提升,进而催生了上图所示的 Agent Scaling Law 猜想:前沿通用 Agent 能够以 50% 可靠性自主完成的任务长度每七个月可以翻一番。而新近发布的 Claude Opus 4,已经在乐天的复杂开源项目重构中,展现出稳定运行近 7 小时的能力。演进速度恐怖如斯,更胜预测。
0x2 下半场
The Second Half 的核心观点是:具备推理能力的大规模预训练模型,填补了 RL 在可泛化先验上的空缺,使 AI 能够在更大、更复杂的 state-action 环境中展现出稳定而强劲的表现。以此为基础,在下半场,可以围绕任务实际效用重构评估体系,让 RL 有机会在评估的指导下,重现 AlphaZero 式的超人类表现。
0x20 半场补时
AI Index Report 2025 | PaperBench: Evaluating AI’s Ability to Replicate AI Research |
从 RE-Bench 和 PaperBench 的观察来看,在部分长时任务的中短时段内,人类为达成与 Agent 相同的效用,需要花费数倍时间。尽管 Agent 存在错误积累与推理偏误等问题,但若妥善安置这类“问题儿童”,充分发挥其信息高吞吐、全天候在线、可并发处理、自主提议与直言不讳的优势,它们足以成为奇兵,填补人力所不能。
通用 Agent 们多以 AGI 为导向,而 RL Scaling Law 业已成为共识路径。因此,时下也是通用 Agent的“半场加时”,重心需要放在优化推理泛化能力上,同时补充对编程、GUI、浏览器、搜索引擎等通用技能或工具的掌握,从而为规模化 RL 构建理想的策略和环境。由于志不在短期效用,通用 Agent 能否在具体任务中奏效,多少要取决于任务是否恰好处于其能力主线上了;一旦偏离主线,任务成功率便可能在低谷徘徊,业务落地的时间表也就无从确定。
source: xbench profession v2.4
既然效用可期,又有通用 Agent 珠玉在前,必定会有垂直 Agent 抢先入局,瓜分推理泛化能力溢出的红利。红杉中国近期更新了基准测试 xbench,除了关注AGI Tracking
,他们还新设了Profession Aligned
维度,也正是希望及时捕捉和量化主流模型在真实业务场景中的应用效果。对于垂直 Agent 而言,时间窗口充满变数,眼下的“半场补时”需要轻装简阵,尽早确认能够在多大尺度和多大程度上自主完成任务,并基于认知完善工具链、调整设计、积累数据。
垂直 Agent 需迁移至新的 Decision 机制,灵活拓展 Context 和 Action Tools,借助 zero-shot 或 few-shot prompt 指导 LLM 完成任务。若任务目标或约束含混不清,应当教导 Agent 主动澄清;若任务步骤可能带来不可逆影响,应实现human-in-the-loop
机制,通过人类可理解的方式审核确认;若任务变数多、开销大,则需引入human-on-the-loop
机制,确保全局透明或分维度监督。相邻子任务若能稳定衔接,可串联为连续作业,充分发挥 Agent 优势。ROI 合理时,应将 Agent 接入现有系统,获取效能增益。
照搬适用于通用 Agent 的方案未必总是奏效。目前,垂直 Agent 还缺少最佳实践沉淀,更需要根据模型能力,以及系统稳定性、拓展性、性能等要求,灵活调整架构设计,优化关键环节。
时下流行的 Multi Agent System 架构设计多为通用需求而设计,优先模块化以保障功能的可用性和拓展性,而非以最大化任务成功率未目标;垂直 Agent 则可以结合业务中的确定性,既通过 Agentic 设计定向增强关键任务的成功率,又可以采用角色化或流程化的设计,借助机制避免资源浪费和跑偏。例如,Lovart 就结合对设计师工作习惯的理解,优先确定方案风格,之后补充计划和设计规范,最后出片。此外,Planning 模式是因 Agent 无法自控 Context 致使上下文爆炸或注意力涣散而产生的代偿方案,而 Reflection、ReAct 模式是为弥补模型自我监控不足而固化的反馈循环,若模型能力提升,应考虑拆除,以提升效率。
source: Daily Dose of Data Science
若关键环节的性能依然不能满足目标,在调整模型前,或可尝试参考 Lilian Weng 在 Why We Think 中提到的并行采样
和序列修订
策略,通过追加 token 成本以满足业务对成功率和稳定性的要求。
作为新生事物,Agent 的发展在短期内几乎必然会面临成本与效用的双重挑战。在此情境下,既要关注 ROI,又不能因成本顾虑而踌躇不前。只要成本并未大幅超出预期,就应优先敏捷实现业务效用,再考虑优化成本。毕竟,智能才是 AI 产品的第一性。Tokens 成本可通过调整系统设计、模型选择等方法加以优化;而容器环境、工具链等基础设施成本,则应在有余力时逐步投入。
待到任务迭代引致复杂度提升而成功率不及预期,或任务部署因高吞吐而效率低下时,就需要考虑引入 SFT、RL、RFT 等技术手段,为模型注入新的驱动力,进一步提高任务成功率与效能了。
0x21 评估驱动
在模型或 Agent 进入常规迭代时,都应当同步建立起评估体系,由评估驱动迭代。这一逻辑与软件工程中的测试驱动开发颇为相似:只有提前设计好测试用例,才能确保后续演进始终沿着预期轨道进行。缺乏有效评估,模型容易偏离目标,Agent 无法量化效用,更难以在长期版本迭代中保持稳定和持续优化。
source: The Second Half
创新攻克现基准,继而拔高新基准,是前沿 LLM 一以贯之的提升路径。虽然如上图示,LLM 们攻克 Benchmark 的速度越来越快,但这并不意味着 benchmark 的作用减弱。相反,benchmark 需要加快迭代、实现动态评估,乃至成为要素齐备的 Agent,一如 WebVoyager 或 AndroidWorld。尽管这些公开 benchmark 并非直接作为 LLM 训练的配方,设计得当的 benchmark 却能为模型演化指引方向。
相较而言,垂直 Agent 的评估更应当提前布局。垂直任务通常有清晰的业务目标和量化标准,因此在许多场景中,评估几乎等同于 reward。如若任务目标难以精准定义,应该尝试将目标分层,分离出易于定义的低层目标;高层目标也往往也可以通过列举不符合预期的情况,帮助模型在 RL 中学会规避错误。随着任务执行逐步外包给 Agent,定义目标、陟罚臧否的重要性愈加凸显,研发、产品与设计团队需将更多精力投入到用户需求洞察与场景交互设计上,才能帮助 Agent 高效运行和持续进步。
然而,无法清晰定义评估,进而难以界定 reward 也是通用和垂直 Agent 都可能遇到的问题,只是对通用 Agent 而言挑战更甚。因而,垂直模型不妨借鉴通用模型们的答题思路和演变历程,从中找到适合自身的方案。此前,通用模型广泛采用 RLHF,基于人类反馈训练奖励模型以优化模型行为,然而人类反馈难免偏误且成本较高。RLVR 则完全摈弃了人类反馈,转而依赖数学、代码等可通过运算核实的可验证奖励指导模型练习,奖励干净无偏,不足则在于易于验证的任务终归有限。不过,由于 RLVR 在推理泛化中大放异彩,对可验证奖励挖掘的探索无疑将持续升温,字节的 Enigmata 则是在复杂 Puzzle 中挖掘可验证奖励,DeepSeek 的 Prover-V2 是对形式化证明工具的利用,DeepMind 的 Formal Conjectures 则在收集形式化但尚未证明的公开猜想。另一种办法是 RLAIF,让 AI 提供反馈,LLM-as-a-Judge 就是另设模型来验证答案,例如 Meta 的 J1;而先生成评估原则,再行评判的 DeepSeek GRM 则可以算作此类的变种。BC Berkeley 的 RLIF 方案 INTUITOR 和中科院的软奖励方案 VeriFree 虽然不再依赖外部验证器,但尚有放大内部偏误的风险,适用范围或许受限。多种方案可以并行使用,也可以构成多数投票,补充多样性视角。
在播客 How Does Claude 4 Think? 中,Sholto Douglas 提到了 Claude 的首因效应:即便后续试图引导模型完成不同目标,它依然会忠于最初的设定。对于大模型而言,这种训练初期的“世界观”设定,既是模型的根本驱动力,也是保障其后续行为安全的关键。虽然对垂直 Agent 而言,无法完全重塑模型最初的设定,但在设计评估与反馈体系时,依然应当充分考虑任务导向与道德原则,避免在目标不清或奖励体系混乱时,诱发偏差和失控。
0x22 学习、练习与复习
评估与奖励就绪后,模型训练便可启动。对于复杂任务,仅记住事实(know what)远远不够,还需理解因果(know why)、掌握方法(know how),乃至协调协作(know whom)。SFT 更侧重知识获取与行为模仿,适合学习「what」与基础层面的「how」;而 RL 则强调在动态环境中的练习,从而填补 CoT 中的思维跳跃,验证和探索行为路径,深化对「why」「how」「whom」的理解。然而,在表征叠加(superposition)的架构下,持续 RL 也会带来策略分布的偏移与奖励信号的失真;因而需要适时 RFT,从 base model 出发,复习拣选出的优质交互轨迹,温故而知新,同时重置策略分布。而交互经验的积累与提炼,将持续作用于后代模型的成长,仿若人类知识的沉淀和传承的过程。
已有研究指出,RL 更擅长在既有知识框架内优化策略,而非真正引入新知。尽管大规模预训练显著降低了缺乏先验的情况,也仍需关注策略本身是否具备任务所需的基础知识,先验不足时,策略难以有效压缩开放环境中的行为空间,进而难以收敛。同时,由于编造内容也可能得分(reward hacking),RL 甚至可能进一步加剧幻觉问题,o3 殷鉴未远。因此,应优先补齐关键知识,再开启系统性练习。尤其在垂直任务中,若已有知识资产丰富、先验结构清晰,更应优先提取、整理并输入模型,以尽早收获效用。
在学习阶段,如何汲取先验是关键命题。垂直 Agent 在医疗、金融等领域常面临数字化不足的问题,但也沉淀了结构清晰、价值明确的数据资产,散落于机构数据库与文档系统中,构成一份苦涩却甘美的“遗泽”。通用 Agent 则开始尝试从半显性数据源中提取结构化知识,例如 Jim Fan 在 The Physical Turing Test 中的分享,Nvidia 利用生成的厨房机器人视频,在虚拟环境中训练机器人模仿学习,低成本提取了对动态世界中的操作知识。
练习和复习阶段的课程设计则尤为关键。虽然通用与垂直 Agent 所需的工具体系各异,但在 RL + RFT 的路径上却殊途同归。初期课程可由人工设定,从易到难练习,帮助模型习得基本技能;在垂直场景中,可将行业 know-how 结构化,作为系统输入。随着能力提升,Agent 也可自拟课程,自主拓展技能图谱。例如,DeepSeek-Prover-V2 就借助 DeepSeek-V3 协助拆解复杂数学命题为子问题,并借助形式工具验证每一推理步骤,构建出一套可验证、自驱动的“课程演化机制”。
分化模型通常意味着不菲的训练与运维成本,也伴随着随时被主模型覆盖的沉没风险。因此,是否分化,应以现实需求为前提。当场景存在显著的数据分布、策略或环境差异,对延迟、成本、精度等指标有切实要求,而无法通过其他机制满足时,可能才是分化模型的合理时机。若仅是为了在 MAS 或 LLM-as-a-Judge 中引入多元视角与风格,应优先尝试通过现有模型组合来实现,在可控性与成本之间取得更稳妥的平衡。
0x23 突破先验的牢笼
尽管 RL Scaling Law 已是相对共识的技术路径,但如何借助课程学习以孕育更强的智能仍待探索。Anthropic 录制的 Lessons on AI agents from Claude Plays Pokémon、李广密与张祥雨围绕阶跃星辰多模态路径的对谈,以及 AlphaZero 首席研究员 David Silver 在新书 Designing an Intelligence 中的预印本节选 Welcome to the Era of Experience,从不同角度呈现了当前 AI 在关键能力上的缺失与可能的演化方向。本节将结合这些案例,尝试就系统层、感知层与元认知层的不足与前景,谈谈笔者的理解。
系统层
响应迟钝几乎是大模型如影随形的系统性瓶颈。随着 Long CoT 和视觉模态的引入,计算开销进一步增长,一次生成动辄数百毫秒,使得 Agent 仅能适用 Pokémon 这类回合制的非即时环境。除了优化模型结构与推理架构外,部分模型厂商推出了混合模式,使模型可在快速的默认模式与较慢的扩展思考模式之间自动切换,以平衡效率与准确性。同时,以 CMU L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning 和 UC Berkeley Learning to Reason without External Rewards 等研究为例,新的奖励设计也开始在引入长度惩罚机制,从底层实现回答时长与任务复杂度的匹配。
其次,是缺乏结构化动态记忆。当前 Agent 的短期记忆过度依赖 Context Length 的线性增长,然而过长上下文反而不利于注意力聚焦,导致效率下降。同时,对记忆超载的补偿过分粗糙,以 Claude 玩 Pokémon 为例,模型在交互约 50 轮后触发总结以压缩上下文,虽能延长会话,但记忆重置容易遗漏细节,面对需连续状态追踪的任务时难免捉襟见肘,认为干预 session 管理亦不理想。更根本的问题在于训练阶段的记忆负载设计 —— 常用的「Needle In a Haystack」测试人为拉高模型记忆压力,却忽视了抽象压缩的重要性,反而抑制了更高阶智能的形成。为此,模型应学会主动利用外部存储实现记忆的分层存储与动态调度,在聚焦当前任务上下文的同时,也能按需回溯历史上下文。
离线训练叠加记忆易失,彻底打断了学习闭环,使得 Agent 难以独立跨越 session 在历练中持续进步,反倒像习惯随手写便利贴的阿尔兹海默病人。要打破这一限制、迈入 David Silver 所说的 Era of Experience,Agent 还需要发展出更敏捷、稳固的持续学习机制。而这一方向,还是未竟之业。
感知层
视觉推理与时空感知的贫弱,在 Claude 玩 Pokémon 时暴露得淋漓尽致:它曾把建筑门口的门垫误判成对话框,结果连续按下 A 键 15 000 次,徒劳地关闭并不存在的对话框,直到被人发现;它也常被走廊迷宫绊住,迟迟找不到出口。而类似缺陷并非 Pokémon 特有,上图来自 Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs,领先模型们在读钟表、识别月历等简单任务上屡屡失手,同样揭示了视觉推理链条的不完整与时空表征的先验匮乏。
问题的根源,仍在于 训练数据的 OOD。当前的多模态预训练主要依赖图文交织数据,如带图文章或带字幕视频。然而,这类数据中往往缺乏连续移动、操作物体并观察变化的视觉元素,也鲜见对视觉、时空变化的细致描写,更遑论完整的推理链条。于是,在此基础上构造的合成迷宫、数数任务等 RL 课程虽可被模型习得,却仍不足以激发模型对预训练经验的泛化调用,难以建立起稳固的视觉、时空推理能力。
要弥补训练数据的先天不足,大致存在两条路径:模拟(simulation)与具身(embodiment)。鉴于人类感知本身存在偏差,模拟与具身应借助优质数据逼近更真实的世界,而不为人类先验所桎梏。
模拟路径通过构建虚拟环境,将学习过程大规模并行化,支持模型在控制良好的世界中进行端到端交互。其优势在于可控性与可扩展性:可系统地设计由浅入深的课程,控制变量精细透明,并借助高频交互加速学习。然而,模拟的根本挑战在于真实性边界 —— 再精细的引擎也难以还原真实世界在视觉纹理、动力学、因果结构上的复杂性,且往往隐含设计者的偏见。这些偏差一旦被模型内化,反而会形成新的认知盲区。因此,模拟成果要部署到现实中,通常还需借助 Sim2Real 桥接虚实鸿沟。
具身路径则强调与真实世界的直接交互,每一次感知、决策与行动都会影响下一时刻的环境状态,从而构成完整的学习闭环。然而,物理交互的时间成本、安全约束,以及环境奖励的稀疏、内在奖励的缺失,严重制约了学习效率。为此,David Silver 提出,应善用环境中的基础信号,在少量人类引导下,鼓励 Agent 大规模自主探索,从环境中积累经验并塑造自己的奖励模型。与此同时,借助世界模型,Agent 可在内部空间中回放经验、模拟未来,在不实际干预现实的前提下提升策略质量与认知效率。进一步而言,当具身形态接近人类时,还可更高效地利用已有的人类示范数据,借助共享的动作空间大幅提升模仿学习的效果。
元认知
尽管当下大模型已具备相当不俗的推理能力,但缺乏自我审视(Self-monitoring)—— 对自身所处状态的持续监控,一切反思、调整与成长都无从谈起。在前文 Claude 玩 Pokémon 的案例中,连续 15000 次重复按键,正是因为未能察觉行为与目标之间的严重偏离。要实现 self-monitoring,可能需要依赖世界模型与内生奖励机制:模型在行动时或显式或隐式地产生对未来状态与奖励的预测,执行过程中则观测实际反馈是否显著偏离预期,从而生成内部修正信号。相关机制虽仍处于早期探索阶段,但有望实现最低限度的自我认知回路,为更复杂的自我调节打下基础。
另一类问题则关乎自我认知(Self-awareness)的缺失。Transformer 架构对 token 的压缩与泛化倾向,使得能力越强的模型越容易表现得自信,即便面对不确定性极高的问题,也极少主动求助。而过度的自信往往意味着模型无法识别自身能力的边界。不了解自己,亦难理解他人。在 Pokémon 中,Claude 无法识别妈妈说「大木博士在隔壁」这类无心的假话,折射出其在他者建模(Theory of Mind)方面的显著欠缺。然而,在协作情境中,个体间对彼此认知边界的理解是构建共识的基础。乔哈里窗中“共识区”的缺失,最终会限制模型与人类之间的信任与协作。若要弥合这一缺口,模型不仅需要通过对推理置信度的内省建立起对自身判断可靠性的认识,还需在此基础上借助归纳、演绎、溯因等推理方式,确实识别问题并设计解法。没有自知,推理终究盲目。
刘慈欣说:「失去兽性,失去一切」。在人类演化中,「兽性」不仅是对环境的本能反应,也包括对自身状态的快速评估、对同类情绪的感知与共振。这些机制虽原始,却高度高效,使人类得以适应复杂环境、构建信任、形成合作。而对于 Agent 而言,要从机械推理迈向现实效用,自我审视、自我认知与他者建模无疑都是必须补足的元能力。这些能力不可能一蹴而就,必须在持续与世界的互动中逐步建立,并在实践中不断迭代与优化。
P.S Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems 系统描绘了更高级的 Agent 所应具备的能力和架构设计。
0x3 生存指南
Agent 替代人的趋势似乎已不可逆转。从代码生成到文案撰写,从数据分析到决策辅助,智能系统的表现正持续逼近乃至超越专业人类的平均水平。不时有人调侃:「为 AI 背锅乃是人类最后的职责」。所言或许非虚,但真正能为 AI 背锅的人,多少还需要两三把刷子。
从某种程度上说,与 Agent 协作,与成为一位合格的 Mentor 或是 Manager 所需的技能点并无二致:
你得了解 Agent 的能力、局限与适用场景,用以衡量的黄金评估集还得随着任务滚动更新;
你得能清晰描述任务的关键目标、时间计划、潜在路径、可用资源、风险要素和协作对象;
你得在正确的时间点介入检查,监管进度与方案质量,赶在问题发生前把 Agent 带回正轨;
你得能准确评估任务结果,与 Agent 复盘错漏,修正指导错误,勘正执行偏误,以正后效。
事实上,在实际应用中,Agent 的生成往往已不再是问题,人的判断反而成了瓶颈。许多公司正在经历「AI 写码一时爽,代码审查火葬场」的转型阵痛。往后看,对事物的敏锐感受、对价值的深刻理解、对结果的清晰衡量,将比对流程的机械执行更为重要。然而,为了保证对过程的核查指导,在执行式微之时,反而需要代入 Agent 角色,hands-on 刻意练习,在必要的层级全然洞悉 Agent 思考的过程和执行的因果,才能实现有效的干预与协作。若判断与指导足够,不排除一个人就能匹敌一个小型团队的生产力。
AI 进化很快,学不可以已,吾辈当自勉。
-EOF-