AGENTS.md在代理评估中超越Skills的背后
摘要 Vervel团队为解决AI编码代理对Next.js 16新API知识缺失的问题,对比测试了skills和AGENTS.md两种文档提供方式。测试结果显示,压缩至8KB的AGENTS.md文档索引达到了100%的通过率,而skills即使在明确指令下也只能达到79%。团队认为,被动式上下文因消除了代理决策负担,始终保持可用,从而在通用框架知识场景中优于需要主动检索的技能系统。
内容框架与概述 文章首先介绍了背景问题:AI代理依赖的训练数据会过时,Next.js 16的新API如use cache、connection等尚未纳入模型训练。团队提出了skills和AGENTS.md两种解决方案并进行了对比测试。skills是一种可打包领域知识的开放标准,代理可按需调用;而AGENTS.md是嵌入项目根目录的markdown文件,为代理提供持久上下文。
测试过程揭示了反直觉的结果。在默认配置下,skills完全没有提升(53%与基线相同),因为代理在56%的情况下根本没有调用技能。即便添加了明确的调用指令,skills也仅能达到79%,且指令措辞的细微变化会显著影响代理行为。相比之下,将文档索引直接嵌入AGENTS.md的简单方法却取得了100%的完美成绩。
团队分析认为,被动上下文胜出的原因在于三点:无决策点消除了代理选择何时加载信息的认知负担;内容始终可用而非异步加载;避免了先读文档还是先探索项目的排序难题。为控制上下文膨胀,团队将40KB的文档压缩至8KB,仍保持100%通过率。
核心概念及解读 Skills:开放标准格式的技能包,可包含提示词、工具和文档,代理按需调用获取垂直领域知识。
AGENTS.md:嵌入项目根目录的markdown文件,为代理提供持久性上下文,代理每次交互都能访问。
Retrieval-led Reasoning:检索导向推理,指代理优先查阅文档而非依赖训练数据,获取版本匹配的准确信息。
Eval Suite:评估测试套件,用于系统性验证代理在不同配置下的代码生成质量。
Docs Index Compression:文档索引压缩技术,将40KB文档精简至8KB的管道分隔格式,保持信息完整同时降低上下文开销。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | AGENTS.md outperforms skills in our agent evals |
| 作者 | Jude Gao |
| 发表日期 | 2026-01-28 |
此摘要卡片由 AI 自动生成