上下文文件对编程代理的帮助性评估
摘要
本文研究上下文文件(AGENTS.md等)对编程代理任务完成性能的影响。研究人员在SWE-bench Lite和新构建的AGENTbench基准(138个实例)上评估多种编程代理,发现上下文文件普遍降低任务成功率,同时增加推理成本超20%。开发者编写的上下文文件仅提升约4%性能,而LLM自动生成的上下文文件反而降低约3%性能。上下文文件虽促使代理进行更多测试和探索,但不必要的冗余要求使任务更难完成。建议仅保留最小需求(如特定工具说明),避免过度说明。
内容框架与概述
文章首先介绍上下文文件在编程代理中的广泛应用背景,指出虽有大量推荐但缺乏严格效果评估。方法部分构建了AGENTbench新基准,包含12个冷门仓库的138个真实GitHub问题实例,并与SWE-bench Lite结合进行三类设置对比实验:无上下文文件、LLM生成上下文文件、开发者提供上下文文件。实验部分展示了对多种编程代理和底层LLM的广泛评估,结果表明上下文文件总体负面影响任务成功率。深入分析部分通过代理行为轨迹揭示上下文文件导致更多探索、测试和推理,但这些额外开销并未转化为性能提升。
核心概念及解读
上下文文件(Context Files):指AGENTS.md、CLAUDE.md等专门为编程代理编写的仓库级说明文档,包含工具链、代码规范等信息。
AGENTbench:本文新构建的评估基准,包含138个来自12个冷门仓库的真实GitHub问题,用于评估上下文文件对代理的影响。
SWE-bench Lite:现有流行仓库的软件工程任务基准,本文用于评估LLM生成的上下文文件在主流仓库上的效果。
任务成功率(Task Success Rate):代理成功解决GitHub问题的比率,是评估代理能力的核心指标。
推理成本(Inference Cost):代理完成任务所需的计算资源消耗,本文发现使用上下文文件使成本增加超过20%。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | Evaluating AGENTS.md:Are Repository-Level Context Files Helpful for Coding Agents? |
| 作者 | |
| 发表日期 | 2026-02-21 |
此摘要卡片由 AI 自动生成