Latent.Space · 2026-02-19

Anthropic发布Agent自主性实测数据

摘要

Anthropic发布Measuring AI agent autonomy in practice研究报告，基于数百万次工具调用分析Claude Code使用模式。数据显示软件工程占工具调用的约50%，用户自主批准率随经验从20%提升至50%以上，中位交互时长稳定在45秒左右。研究强调自主性由模型、用户和产品共同构建，而非单一技术指标决定。

内容框架与概述

文章首先介绍Anthropic对其API使用模式的研究，重点分析Claude Code的自主性演变趋势。数据显示从9月到1月，平均自主编码时间从25分钟增长至45分钟以上，尽管在2月用户量激增时有所回落。研究对比了Anthropic实测数据与METR评估方法的差异，指出METR测量的是人类等效工作时间，而非模型实际运行时长。

研究发现Claude Code的中位交互时长约为45秒，且这一数字在过去几个月保持相对稳定。新用户最初只有20%的自动批准率，但随着经验积累会提升至50%以上，同时也会更频繁地中断Agent执行。研究还详细记录了Claude主动请求澄清的情况及其频率分布。

文章最后回顾了AI Twitter上的相关讨论，涵盖Claude 4.6、Qwen 3.5、GLM-5、Gemini 3.1 Pro等模型的更新，以及Agentic编码工具如Cursor和LangChain的进展。强调了工程架构对Agent性能的影响，相同模型在不同编排框架下可产生1.7倍的性能差异。