2026-02-21

上下文文件对编程代理的帮助性评估

摘要

本文研究上下文文件（AGENTS.md等）对编程代理任务完成性能的影响。研究人员在SWE-bench Lite和新构建的AGENTbench基准（138个实例）上评估多种编程代理，发现上下文文件普遍降低任务成功率，同时增加推理成本超20%。开发者编写的上下文文件仅提升约4%性能，而LLM自动生成的上下文文件反而降低约3%性能。上下文文件虽促使代理进行更多测试和探索，但不必要的冗余要求使任务更难完成。建议仅保留最小需求（如特定工具说明），避免过度说明。

内容框架与概述

文章首先介绍上下文文件在编程代理中的广泛应用背景，指出虽有大量推荐但缺乏严格效果评估。方法部分构建了AGENTbench新基准，包含12个冷门仓库的138个真实GitHub问题实例，并与SWE-bench Lite结合进行三类设置对比实验：无上下文文件、LLM生成上下文文件、开发者提供上下文文件。实验部分展示了对多种编程代理和底层LLM的广泛评估，结果表明上下文文件总体负面影响任务成功率。深入分析部分通过代理行为轨迹揭示上下文文件导致更多探索、测试和推理，但这些额外开销并未转化为性能提升。