上下文工程崛起：中美澳15位科学家定义AI新时代核心学科，揭示大模型存在根本性不对称

2025-07-19 20:18 北京

“AI 模型的性能本质上取决于上下文信息”的这一关于上下文工程的核心洞见，仍将在AI 模型的发展中占据关键地位。

还记得安德烈·卡帕西（Andrej Karpathy）在上个月带火的上下文工程吗？他曾盛赞上下文工程“是一门精心设计、科学填充上下文窗口的精密艺术。”

图 | 安德烈·卡帕西（Andrej Karpathy）在 2025 年 6 月发表的 X 贴文（来源：X）

时隔不到一个月，上下文工程更是被一众科学家正式定义为一门学科。日前，来自中美澳累计 6 家高校科研机构的 15 名研究人员，通过分析 1400 多篇研究论文，首次将上下文工程作为一门正式学科加以全面探讨，并指出它能够系统性地设计、优化和管理大模型的信息有效载荷。

图 | 来自中美澳累计 6 家高校科研机构的 15 名研究人员完成了相关综述论文（来源：https://arxiv.org/pdf/2507.13334）

论文作者们分别来自中国科学院计算技术研究所、美国加利福尼亚大学默塞德分校、澳大利亚昆士兰大学、北京大学、清华大学和中国科学院大学。论文中，研究人员将上下文工程确立为开发复杂 AI 系统的关键基础，并指出这类复杂 AI 系统的特征在于能够有效整合外部知识、维持持久记忆，以及能与复杂环境进行动态交互。

本次研究的主要贡献在于提出了一个统一的分类框架，该框架将上下文工程技术分为基础组件和系统实现方法两大块。通过这一系统性的研究，他们得出了以下关键见解。

第一，尽管大模型在理解复杂语境上有着出色表现，但是在生成同样复杂的输出时却存在局限性，而这两者之间存在根本性的不对称，这种理解与生成之间的差距是大模型领域面临的最关键挑战之一。

第二，本次研究表明多种技术正在以日益复杂的方式进行协同融合，这种集成模式所产生的综合能力已经超越各独立组件的简单叠加。研究人员所观察到一个明显趋势是：模块化和组合性不断增强，使得架构能够灵活适应各种应用，同时还能保持系统的一致性。

总的来说，通过系统地分析 1400 多篇论文，本次综述论文不仅为该领域确立了技术路线图，还揭示了一个关键的研究空白：即模型能力之间存在根本性的不对称。尽管当前模型通过先进的上下文工程得到了增强，在理解复杂上下文方面也有着出色表现，但在生成同样复杂的长篇输出时却存在明显的局限性，而填补这一空白是未来领域内的首要任务。

图 | 该图全面概述了本次研究人员提出的分类体系，展示了上下文工程领域内各类技术的层级结构及其相互关系（来源：https://arxiv.org/pdf/2507.13334）

将上下文工程进行概念化

很多人都知道，大模型的性能和效能从根本上取决于它们所接收的上下文。这种上下文——从简单的指令提示到复杂的外部知识库，是引导其行为、扩充其知识和释放其能力的主要机制。随着大模型从基本的“指令遵循系统”演变为复杂应用的“核心推理引擎”，设计和管理其信息载荷的方法也相应地演变为上下文工程这样一门正式学科。

当前，上下文工程领域正以爆炸性的速度扩展，催生了众多专业且分散的研究方向。如前所述，研究人员将这一领域进行了概念化，进而指出上下文工程由以下两个部分组成：基础组件和系统实现方法。

基础组件通过三个关键阶段构成了上下文工程的系统性流程：

第一个阶段是上下文检索与生成，包括基于提示的生成和外部知识获取；

第二个阶段是上下文处理，这涉及到长序列处理、自我完善机制和结构化信息整合；

第三个阶段是上下文管理，这涉及到内存层次结构、压缩技术和优化策略。

这些基础组件催生了更复杂的面向应用的实现方式，进一步地这些实现方式能够将大模型与外部现实联系起来。

系统实现方法主要包括：

第一种是高级检索增强生成，该技术目前已经发展为模块化、智能体驱动的架构，能被用于动态知识注入；

第二种是模拟人类认知能力以便实现持久信息保留的显性内存系统；

第三种

工具集成推理，它能将模型从被动的文本生成器转变为能够动态利用工具和操纵环境的主动世界交互者。这种实现方式使模型能够通过函数调用机制、集成推理框架和复杂的环境交互能力，突破其固有的局限性。

第四种是基于智能体系统的完整生态系统，这种技术代表着目前上下文工程的巅峰技术，它能让智能体利用函数调用和工具集成推理来与世界进行交互，并能够通过依赖于复杂的智能体通信协议和上下文编排，进而在多智能体配置中实现复杂目标。

（来源：https://arxiv.org/pdf/2507.13334）

上下文工程的基础组件、系统实现和评估

研究人员指出，当前大模型领域的碎片化发展掩盖了技术之间的根本联系，也给业内人士带来了研究障碍和使用障碍。因此，该领域迫切需要一个统一的框架来系统性地整合这些技术，进而阐明其基本原理，以及揭示它们之间的相互依赖关系。

随着大模型从简单的指令遵循系统演变为复杂、多应用的核心推理引擎，与之交互的方法也必须随之发展。

研究人员认为，提示工程固然很重要，但是已经无法全面涵盖现代 AI 系统所需的信息载荷的设计、管理和优化。关于此，在本文开头的 X 贴文截图中卡帕西也表达了类似观点。原因在于，这些 AI 系统并非基于单一、静态的文本字符串进行操作，它们利用的是动态、结构化且多方面的信息流。为了弥补这一关键空白，本次综述论文首次针对大模型的上下文工程进行了全面且系统的回顾，同时引入并规范了上下文工程这一学科。

如前所述，上下文工程建立在三个基本组件之上，这些组件能够共同应对大模型中信息管理的核心挑战：

上下文检索与生成，它通过提示工程、外部知识检索和动态上下文组装来获取适当的上下文信息；

上下文处理，它通过长序列处理、自我优化机制和结构化数据整合，来针对获取的信息进行转换和优化；

上下文管理，它通过解决基本约束、实施复杂的内存层次结构以及开发压缩技术，来处理上下文信息的有效组织和利用。

这些基础组件为所有上下文工程的实施奠定了理论和实践基础，并能形成一个全面的框架。其中，每个组件都能处理上下文工程流程的不同方面，同时各组件之间保持协同关系，从而实现全面的上下文优化和有效的上下文工程策略。

基于上下文工程的基础组件，研究人员探讨了复杂的系统实现方式，这些实现方式可以将上述组件整合到实用的智能架构中，同时这些实现代表了从理论框架到可部署系统的演进。

如前所述，研究人员提出了四类系统实现方式：

第一类实现方式是检索增强生成系统，它通过模块化架构和图增强方法实现外部知识的整合。

第二类实现方式是内存系统，它通过复杂的内存架构展示了持续的上下文管理，从而能够支持长期学习。

第三类实现方式是工具集成推理，它通过函数调用和环境交互，将语言模型转化为能够与世界交互的实体。

第四类实现方式是多智能体系统，它通过通信协议和编排机制呈现出协调一致的方法。

以上四类实现方式中的每一个都基于基础组件构建，同时解决了上下文利用中的特定挑战，展示了理论原则转化为实际系统的背后原理。

（来源：https://arxiv.org/pdf/2507.13334）

“AI 模型的性能本质上取决于上下文信息”

研究人员指出，当前上下文工程正处于一个关键的转折点，当前这种基础进展与新兴应用需求相融合的阶段，既创造了前所未有的创新机遇，也暴露出了一些必须在多个维度开展持续研究才能解决的根本性挑战。

随着该领域逐渐从孤立的组件开发向集成系统架构过渡，一些研究难题的复杂性也会呈现指数级的增长，因此需要采用跨学科的方法，将理论计算机科学、实用系统工程和特定领域专业知识结合起来。

基于此，研究人员通过本次论文为 AI 从业者提供了一个统一的框架。与此同时，研究人员通过本次研究所发现的大模型评估挑战，凸显了该领域对于全面评估框架的需求，这类全面评估框架需要能够捕捉上下文工程系统所展现出的复杂、动态的行为。因此，传统评估方法对于多组件集成、具有自适应行为且长期持续运行的大模型来说已经显得力不从心。但在这之中也蕴含着一些重大机遇，比如未来人们可以开发用于高效长上下文处理的下一代架构、构建智能上下文组装系统，以及打造多智能体的协调机制等。

总的来说，本次综述论文不仅呈现了该领域的一些现状，也为未来研究提供了路线图，并将上下文工程确立为一门独立学科，它的独立性体现在它拥有独属于自身的原则、方法和挑战，能够推动并支持具有上下文感知能力的AI 模型实现“负责任”的发展。

而随着大模型的不断发展，“AI 模型的性能本质上取决于上下文信息”的这一关于上下文工程的核心洞见，仍将在 AI 模型的发展中占据关键地位。未来，随着 AI 模型逐渐朝着复杂的多组件系统发展，上下文工程有望在 AI 发展中扮演日益核心的角色。而上下文工程的跨学科性质，即其涵盖计算机科学、认知科学、语言学以及特定领域专业知识的特点，也要求人们必须采取跨领域合作的方法来将 AI 之路走宽走远。

参考资料：

https://arxiv.org/pdf/2507.13334

https://x.com/karpathy

01/ 首张“太阳系婴儿照”诞生！科学家拍到行星形成初始阶段，助力破解行星起源之谜

02/ 科学家设计覆盖免疫全流程的“AI引擎”，更快预测病毒和肿瘤细胞突变，助力疫苗设计和精准免疫治疗

03/ 40余名科学家罕见联合撰文：AI已能使用人类语言模拟思考，监控AI推理仅剩短暂窗口

04/ 科学家打造会“变魔术”的高分子，实现聚合物共轭可逆调控，第二代产品已启动研发

05/ 牛顿力学在AI中失效？Transformer模型能完美预测却不懂物理，哈佛团队揭示模型缺失物理常识