AGENTS.md在Next.js代码代理评估中表现超越Skills
摘要
本文介绍了Vercel团队在为AI编码代理提供框架特定知识时的实验发现。他们对比了两种方法,Skills技能包和AGENTS.md文件,在针对Next.js 16新API的评估测试中发现将压缩的8KB文档索引直接嵌入AGENTS.md文件实现了100%的通过率,而Skills即使在使用显式指令的情况下最高仅达到79%的通过率。
内容框架与概述
文章首先介绍了问题背景,AI编码代理依赖于可能过时的训练数据,Next.js 16引入的新API不在当前模型的训练数据中。团队最初期望Skills能够解决这个问题,Skills是一个开放标准,用于打包编码代理可以使用的领域知识。
然后文章详细描述了评估过程。在没有显式指令的情况下,Skills在56%的评估案例中从未被调用,通过率与基线相同为53%。添加显式指令后触发率提升到95%以上,通过率提升到79%。但团队发现指令措辞的不同会导致结果的显著差异,这表明这种方法很脆弱。
最后文章介绍了AGENTS.md方法。他们将文档索引直接嵌入到项目根目录的AGENTS.md文件中,使代理在每个回合都能访问这些信息,无需决定是否加载它。这种方法在最终的评估测试中实现了100%的通过率,在Build、Lint和Test三个维度上都取得了完美得分。团队还通过压缩技术将40KB的文档索引缩小到8KB,减少了上下文窗口的占用。
核心概念及解读
Skills:开放标准,用于打包编码代理可以使用的领域知识,代理可以按需调用包含提示、工具和文档的技能包。
AGENTS.md:项目根目录中的markdown文件,为编码代理提供持久上下文,代理在每个回合都能访问这些信息,无需决定加载它。
检索引导推理:代理查阅文档而不是依赖可能过时的训练数据来完成任务的方法。
上下文窗口:AI模型在生成响应时可以考虑的最大token数量,文档嵌入可能会占用大量空间。
版本匹配文档:与项目使用的框架版本相对应的文档,确保代理生成的代码与实际项目环境兼容。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | AGENTS.md outperforms skills in our agent evals |
| 作者 | Jude Gao |
| 发表日期 | 2026-01-28 |
此摘要卡片由 AI 自动生成