Michael Bolin · 2026-01-26

深入解析 Codex 代理循环：AI 软件代理的核心架构

摘要

本文是 OpenAI 关于 Codex CLI 技术系列的首篇，深入剖析了"代理循环"这一 AI 代理的核心机制。文章详细介绍了从用户输入到模型推理、工具调用、结果观察再到最终响应的完整流程，并解释了 Codex 如何通过 Responses API 驱动推理、管理上下文窗口以及处理多轮对话。

文章开篇明确了 Codex 作为本地软件代理的定位，并指出代理循环是协调用户、模型和工具三者交互的核心逻辑。作者首先用图示展示了代理循环的基本流程：接收用户输入、构建提示词、进行模型推理、执行工具调用、观察结果并迭代，直到生成最终响应。

随后文章深入技术细节，解释了模型推理过程中 token 的转换机制，以及多轮对话中上下文窗口的累积问题。作者特别强调了上下文管理的重要性——因为每个模型都有固定的上下文窗口限制，而单轮对话可能产生数百次工具调用。

最后，文章详细展示了 Codex 如何通过 Responses API 进行推理调用，包括 instructions、tools、input 等字段的配置方式，以及 shell 工具等核心功能的实现细节，为开发者提供了可复现的技术参考。

Agent Loop（代理循环）：AI 代理的核心运行机制，负责协调用户输入、模型推理和工具执行的循环迭代过程，直到产生最终响应。

Context Window（上下文窗口）：模型单次推理能处理的最大 token 数量，包含输入和输出。代理需要管理上下文以防止在长对话中超出限制。

Tool Call（工具调用）：模型在推理过程中请求执行的外部操作（如运行 shell 命令），代理执行后将结果反馈给模型继续推理。

Turn（对话轮次）：从用户输入到代理响应的完整过程，一轮中可能包含多次模型推理和工具调用的迭代。

Responses API：OpenAI 提供的模型推理接口，Codex 通过它发送 HTTP 请求进行推理，支持配置指令、工具定义和输入内容。

字段	内容
原文	Unrolling the Codex agent loop
作者	Michael Bolin
发表日期	2026-01-22

此摘要卡片由 AI 自动生成