Latent.Space · 2026-02-19

Anthropic发布Agent自主性实测数据

摘要

Anthropic发布Measuring AI agent autonomy in practice研究报告,基于数百万次工具调用分析Claude Code使用模式。数据显示软件工程占工具调用的约50%,用户自主批准率随经验从20%提升至50%以上,中位交互时长稳定在45秒左右。研究强调自主性由模型、用户和产品共同构建,而非单一技术指标决定。

内容框架与概述

文章首先介绍Anthropic对其API使用模式的研究,重点分析Claude Code的自主性演变趋势。数据显示从9月到1月,平均自主编码时间从25分钟增长至45分钟以上,尽管在2月用户量激增时有所回落。研究对比了Anthropic实测数据与METR评估方法的差异,指出METR测量的是人类等效工作时间,而非模型实际运行时长。

研究发现Claude Code的中位交互时长约为45秒,且这一数字在过去几个月保持相对稳定。新用户最初只有20%的自动批准率,但随着经验积累会提升至50%以上,同时也会更频繁地中断Agent执行。研究还详细记录了Claude主动请求澄清的情况及其频率分布。

文章最后回顾了AI Twitter上的相关讨论,涵盖Claude 4.6、Qwen 3.5、GLM-5、Gemini 3.1 Pro等模型的更新,以及Agentic编码工具如Cursor和LangChain的进展。强调了工程架构对Agent性能的影响,相同模型在不同编排框架下可产生1.7倍的性能差异。

核心概念及解读

自主性(Autonomy):指AI Agent在无需人工干预情况下独立完成任务的能力,Anthropic数据显示这由模型、用户和产品共同塑造。

人机协同(Human-in-the-loop):约73%的工具调用涉及人工监督,只有0.8%的操作被视为不可逆转,体现了实际使用中的人工参与度。

METR评估:与Anthropic实测不同,METR测量的是任务难度即人类等效工作时间,而非模型实际运行时长,两者呈现不同趋势。


原文信息

字段内容
原文[AINews] Anthropics Agent Autonomy study
作者Latent.Space
发表日期2026-02-19

此摘要卡片由 AI 自动生成