「翻译」Anthropic:为人工智能代理进行有效的上下文工程
在提示工程(prompt engineering)成为应用人工智能领域关注焦点几年后,一个新术语开始崭露头角:上下文工程(context engineering)。使用语言模型进行构建,正逐渐从为提示寻找合适的词语和短语,转变为回答一个更宏观的问题:“什么样的上下文配置最有可能产生我们模型的期望行为?”
上下文指的是在从大语言模型(LLM)采样时包含的令牌(token)集合。眼下的工程问题是,在 LLM 的固有约束下,优化这些令牌的效用,以持续实现期望的结果。要有效地驾驭 LLM,通常需要在上下文中思考——换句话说:考虑 LLM 在任何给定时间可用的整体状态,以及该状态可能产生的潜在行为。
在这篇文章中,我们将探讨上下文工程这门新兴的艺术,并为构建可控、有效的代理提供一个更精炼的心智模型。
上下文工程与提示工程
在 Anthropic,我们将上下文工程视为提示工程的自然演进。提示工程指的是为获得最佳结果而编写和组织 LLM 指令的方法(请参阅我们的文档以获取概述和有用的提示工程策略)。上下文工程则指的是在 LLM 推理过程中,为管理和维护最佳令牌(信息)集合而采取的一系列策略,包括可能出现在提示之外的所有其他信息。
在早期使用 LLM 进行工程设计的阶段,提示是人工智能工程工作中最重要的部分,因为日常聊天互动之外的大多数用例都需要针对单次分类或文本生成任务进行优化的提示。顾名思义,提示工程的主要焦点是如何编写有效的提示,特别是系统提示。然而,随着我们朝着构建能够在多轮推理和更长时间范围内运行的、能力更强的代理迈进,我们需要策略来管理整个上下文状态(系统指令、工具、模型上下文协议(MCP)、外部数据、消息历史等)。
一个循环运行的代理会产生越来越多可能与下一轮推理相关的数据,这些信息必须周期性地进行提炼。上下文工程正是在这个不断演变的信息宇宙中,精心挑选哪些内容将进入有限的上下文窗口的艺术与科学。
与编写提示这项离散的任务相比,上下文工程是迭代的,并且每次我们决定向模型传递什么内容时,都会发生管理阶段。
为什么上下文工程对构建强大的代理至关重要
我们观察到,尽管 LLM 速度快,能处理越来越大的数据量,但它们和人类一样,在某个点上会失去焦点或感到困惑。关于“大海捞针”式基准测试的研究揭示了上下文退化(context rot)的概念:随着上下文窗口中令牌数量的增加,模型准确回忆该上下文中信息的能力会下降。
虽然某些模型的性能下降比其他模型更为平缓,但这一特性在所有模型中都会出现。因此,上下文必须被视为一种边际回报递减的有限资源。就像人类的工作记忆容量有限一样,LLM 在解析大量上下文时也有一个“注意力预算”。每引入一个新的令牌都会消耗这个预算的一部分,从而增加了仔细管理 LLM 可用令牌的必要性。
这种注意力稀缺源于 LLM 的架构限制。LLM 基于 Transformer 架构,该架构使每个令牌都能关注到整个上下文中的其他所有令牌。这导致 n 个令牌之间存在 n² 个成对关系。
随着上下文长度的增加,模型捕捉这些成对关系的能力被拉伸,从而在上下文大小和注意力焦点之间产生了一种天然的张力。此外,模型的注意力模式是在训练数据分布中形成的,其中短序列通常比长序列更常见。这意味着模型对于上下文范围内的依赖关系经验较少,专门化的参数也较少。
像位置编码插值这样的技术,通过将长序列适应于最初训练的较小上下文,使得模型能够处理更长的序列,尽管在理解令牌位置方面会有一些性能下降。这些因素造成了性能的梯度下降而非悬崖式下跌:模型在较长上下文中仍然非常强大,但与在较短上下文中的表现相比,其信息检索和长程推理的精度可能会降低。
这些现实情况意味着,深思熟虑的上下文工程对于构建强大的代理至关重要。
有效上下文的剖析
鉴于 LLM 受到有限的注意力预算的限制,良好的上下文工程意味着找到尽可能小的高信噪比令牌集合,以最大化实现某种期望结果的可能性。实现这一实践远比说起来容易,但在下一节中,我们将概述这一指导原则在上下文的不同组成部分中的实际意义。
系统提示应该极其清晰,使用简单、直接的语言,以恰当的高度向代理呈现思想。恰当的高度是介于两种常见失败模式之间的“金发姑娘”区域。一个极端是,我们看到工程师在提示中硬编码复杂、脆弱的逻辑,以引出精确的代理行为。这种方法会产生脆弱性,并随着时间的推移增加维护复杂性。另一个极端是,工程师有时会提供模糊、高层次的指导,这无法为 LLM 提供期望输出的具体信号,或者错误地假设了共享的上下文。最佳高度则在两者之间取得了平衡:既足够具体以有效引导行为,又足够灵活,能为模型提供强大的启发式方法来指导行为。
我们建议将提示组织成不同的部分(如 <background_information>
、<instructions>
、## Tool guidance
、## Output description
等),并使用 XML 标签或 Markdown 标题等技术来划分这些部分,尽管随着模型变得越来越强大,提示的确切格式可能正变得不那么重要。
无论您决定如何构建系统提示,都应该力求使用最少的信息集来完整地勾勒出您期望的行为。(请注意,最少并不一定意味着简短;您仍然需要预先为代理提供足够的信息,以确保它遵循期望的行为。)最好的方法是,首先用可用的最佳模型测试一个最简化的提示,看看它在您的任务上的表现,然后根据初始测试中发现的失败模式,添加清晰的指令和示例来提高性能。
工具允许代理与其环境进行交互,并在工作时引入新的、额外的上下文。因为工具定义了代理与其信息/行动空间之间的契约,所以工具促进效率至关重要,既要返回令牌高效的信息,也要鼓励高效的代理行为。
在为 AI 代理编写工具——借助 AI 代理一文中,我们讨论了构建能被 LLM 很好理解且功能重叠最小的工具。与设计良好的代码库中的函数类似,工具应该是自包含的、对错误具有鲁棒性,并且其预期用途应极其明确。输入参数同样应该是描述性的、无歧义的,并能发挥模型的内在优势。
我们看到的最常见的失败模式之一是臃肿的工具集,它们覆盖了太多的功能,或者导致在选择使用哪个工具时出现模糊的决策点。如果一个人类工程师都不能确定在给定情况下应该使用哪个工具,那么就不能期望一个 AI 代理能做得更好。正如我们稍后将讨论的,为代理策划一个最小可行的工具集,也可以在长时间的交互中实现更可靠的上下文维护和修剪。
提供示例,也就是所谓的“少样本提示”(few-shot prompting),是一个众所周知的最佳实践,我们继续强烈建议使用。然而,团队常常会在提示中塞入一长串的边缘案例,试图阐明 LLM 在特定任务中应遵循的每一个可能的规则。我们不推荐这样做。相反,我们建议努力策划一组多样化、典型的示例,以有效地展示代理的预期行为。对于 LLM 来说,示例就是“一图胜千言”中的“图”。
我们对上下文不同组成部分(系统提示、工具、示例、消息历史等)的总体指导是:深思熟虑,保持上下文信息丰富但紧凑。现在,让我们深入探讨在运行时动态检索上下文。
在构建有效的 AI 代理中,我们强调了基于 LLM 的工作流与代理之间的区别。自撰写那篇文章以来,我们逐渐倾向于一个简单的代理定义:LLM 以循环方式自主使用工具。
通过与客户的合作,我们看到该领域正在向这个简单的范式趋同。随着底层模型变得越来越强大,代理的自主性水平可以扩展:更智能的模型允许代理独立地驾驭细微的问题空间并从错误中恢复。
我们现在看到工程师在思考如何为代理设计上下文方面发生了转变。如今,许多 AI 原生应用都采用某种形式的基于嵌入的推理前检索来为代理提供重要的上下文以供其推理。随着该领域向更具代理性的方法过渡,我们越来越多地看到团队用“即时”(just in time)上下文策略来增强这些检索系统。
采用“即时”方法的代理,不是预先处理所有相关数据,而是维护轻量级的标识符(文件路径、存储的查询、网页链接等),并使用这些引用在运行时通过工具动态地将数据加载到上下文中。Anthropic 的代理式编码解决方案 Claude Code 使用这种方法对大型数据库进行复杂的数据分析。模型可以编写有针对性的查询、存储结果,并利用像 head 和 tail 这样的 Bash 命令来分析大量数据,而无需将完整的数据对象加载到上下文中。这种方法反映了人类的认知:我们通常不会记住整个信息语料库,而是引入外部组织和索引系统,如文件系统、收件箱和书签,以便按需检索相关信息。
除了存储效率,这些引用的元数据提供了一种有效优化行为的机制,无论是明确提供还是直观感知的。对于在文件系统中操作的代理来说,一个名为 test_utils.py
的文件出现在 tests
文件夹中,其意图与一个同名文件位于 src/core_logic.py
中是不同的。文件夹层次结构、命名约定和时间戳都提供了重要的信号,帮助人类和代理理解如何以及何时利用信息。
让代理自主导航和检索数据也实现了渐进式披露——换句话说,允许代理通过探索逐步发现相关上下文。每一次交互都会产生为下一次决策提供信息的上下文:文件大小暗示复杂性;命名约定暗示用途;时间戳可以作为相关性的代理。代理可以逐层构建理解,只在工作记忆中保留必要的内容,并利用笔记策略进行额外的持久化。这种自我管理的上下文窗口使代理能够专注于相关的子集,而不是淹没在详尽但可能无关的信息中。
当然,这里存在一个权衡:运行时探索比检索预先计算的数据要慢。不仅如此,还需要有主见和深思熟虑的工程设计,以确保 LLM 拥有正确的工具和启发式方法来有效地导航其信息环境。没有适当的指导,代理可能会因为滥用工具、追逐死胡同或未能识别关键信息而浪费上下文。
在某些情况下,最有效的代理可能会采用混合策略,为了速度预先检索一些数据,并自行决定进行进一步的自主探索。决定“正确”自主性水平的边界取决于任务。Claude Code 就是一个采用这种混合模型的代理:CLAUDE.md 文件会预先简单地放入上下文,而像 glob 和 grep 这样的原生命令则允许它导航环境并即时检索文件,有效地绕过了索引过时和复杂语法树的问题。
混合策略可能更适合内容动态性较低的场景,例如法律或金融工作。随着模型能力的提高,代理设计将倾向于让智能模型智能地行动,并逐步减少人工干预。鉴于该领域的快速发展步伐,“做最简单有效的事”可能仍然是我们给在 Claude 之上构建代理的团队的最佳建议。
针对长周期任务的上下文工程
长周期任务要求代理在一系列动作中保持连贯性、上下文和目标导向行为,而这些动作的令牌总数超过了 LLM 的上下文窗口。对于跨越数十分钟到数小时连续工作的任务,如大型代码库迁移或全面的研究项目,代理需要专门的技术来绕过上下文窗口大小的限制。
等待更大的上下文窗口似乎是一个显而易见的策略。但很可能在可预见的未来,所有大小的上下文窗口都会受到上下文污染和信息相关性问题的影响——至少在追求最强代理性能的情况下是如此。为了使代理能够在扩展的时间范围内有效工作,我们开发了一些直接解决这些上下文污染限制的技术:压缩、结构化笔记和多代理架构。
压缩 (Compaction)
压缩是指将一个接近上下文窗口限制的对话,总结其内容,然后用该摘要重新启动一个新的上下文窗口的做法。压缩通常是上下文工程中推动更好的长期连贯性的第一个杠杆。其核心在于,压缩以高保真度的方式提炼上下文窗口的内容,使代理能够在性能下降最小的情况下继续工作。
例如,在 Claude Code 中,我们通过将消息历史传递给模型来总结和压缩最关键的细节来实现这一点。模型会保留架构决策、未解决的错误和实现细节,同时丢弃冗余的工具输出或消息。然后,代理可以使用这个压缩后的上下文加上最近访问的五个文件继续工作。用户可以获得连续性,而无需担心上下文窗口的限制。
压缩的艺术在于选择保留什么、丢弃什么,因为过于激进的压缩可能导致丢失那些其重要性直到后来才显现的微妙但关键的上下文。对于实现压缩系统的工程师,我们建议在复杂的代理轨迹上仔细调整您的提示。首先最大化召回率,以确保您的压缩提示能从轨迹中捕获每一个相关信息,然后通过消除多余内容来迭代提高精确度。
一个唾手可得的多余内容的例子是清除工具调用和结果——一旦一个工具在消息历史的深处被调用过,代理为什么还需要再次看到原始结果呢?最安全、最轻量级的压缩形式之一是工具结果清除,最近作为 Claude 开发者平台的一项功能推出。
结构化笔记 (Structured note-taking)
结构化笔记,或称代理记忆,是一种代理定期将笔记写入并持久化到上下文窗口之外的内存中的技术。这些笔记会在稍后的时间点被拉回到上下文窗口中。
这种策略以最小的开销提供了持久的记忆。就像 Claude Code 创建一个待办事项列表,或者您的自定义代理维护一个 NOTES.md 文件一样,这种简单的模式允许代理在复杂任务中跟踪进度,维护那些否则会在数十次工具调用中丢失的关键上下文和依赖关系。
Claude 玩宝可梦 的例子展示了记忆如何在非编码领域改变代理的能力。该代理在数千个游戏步骤中保持精确的记录——跟踪目标,如“在过去的 1234 步中,我一直在 1 号道路上训练我的宝可梦,皮卡丘已经升了 8 级,目标是 10 级。” 在没有任何关于记忆结构的提示下,它会绘制出已探索区域的地图,记住它已解锁的关键成就,并维护战斗策略的战略笔记,帮助它学习哪种攻击对不同对手最有效。
在上下文重置后,代理会阅读自己的笔记,并继续进行长达数小时的训练序列或地牢探索。这种跨越总结步骤的连贯性使得长周期策略成为可能,而这在仅将所有信息保存在 LLM 的上下文窗口中是不可能实现的。
作为我们 Sonnet 4.5 发布的一部分,我们在 Claude 开发者平台上公测发布了一个记忆工具,该工具通过一个基于文件的系统,使得在上下文窗口外存储和查阅信息变得更加容易。这允许代理随时间建立知识库,跨会话维护项目状态,并引用以前的工作,而无需将所有内容都保留在上下文中。
子代理架构 (Sub-agent architectures)
子代理架构提供了另一种绕过上下文限制的方法。不是让一个代理试图在整个项目中维护状态,而是让专门的子代理用干净的上下文窗口来处理专注的任务。主代理以一个高层次的计划进行协调,而子代理则执行深入的技术工作或使用工具查找相关信息。每个子代理可能会进行广泛的探索,使用数万甚至更多的令牌,但只返回其工作的 condensed、提炼后的摘要(通常为 1000-2000 个令牌)。
这种方法实现了明确的关注点分离——详细的搜索上下文被隔离在子代理内部,而主代理则专注于综合和分析结果。这种模式在我们如何构建多代理研究系统中有所讨论,在复杂的研究任务上,它比单代理系统显示出显著的改进。
这些方法之间的选择取决于任务的特性。例如:
- 对于需要大量来回交互的任务,压缩可以保持对话的流畅性;
- 对于具有明确里程碑的迭代式开发,笔记记录表现出色;
- 多代理架构适用于并行探索能带来回报的复杂研究和分析。
即使模型不断改进,在扩展交互中保持连贯性的挑战仍将是构建更有效代理的核心。
结论
上下文工程代表了我们使用 LLM 构建方式的根本性转变。随着模型变得越来越强大,挑战不仅仅是制作完美的提示——而是在每一步都深思熟虑地管理哪些信息进入模型有限的注意力预算。无论您是为长周期任务实施压缩,设计令牌高效的工具,还是让代理能够即时探索其环境,指导原则始终如一:找到最小的高信噪比令牌集合,以最大化您期望结果的可能性。
我们概述的技术将随着模型的改进而不断演变。我们已经看到,更智能的模型需要更少的规定性工程,允许代理以更大的自主性运作。但即使能力不断扩展,将上下文视为一种宝贵、有限的资源,仍将是构建可靠、有效代理的核心。
立即开始在 Claude 开发者平台中使用上下文工程,并通过我们的记忆和上下文管理手册获取有用的提示和最佳实践。
致谢
由 Anthropic 的应用人工智能团队撰写:Prithvi Rajasekaran、Ethan Dixon、Carly Ryan 和 Jeremy Hadfield,团队成员 Rafi Ayub、Hannah Moran、Cal Rueb 和 Connor Jennings 亦有贡献。特别感谢 Molly Vorwerck、Stuart Ritchie 和 Maggie Vo 的支持。