Latent.Space · 2026-02-18

Claude Sonnet 4.6 发布:接近 Opus 级别的升级

摘要

Anthropic 发布 Claude Sonnet 4.6,定位为最强大的 Sonnet 模型,在编程、计算机使用、长上下文推理等多个领域实现改进。基准测试显示 SWE-Bench Verified 达 79.6%,用户在 59% 场景下偏好该模型。然而性能提升伴随 token 消耗显著增加,部分用户反馈存在可靠性问题。

内容框架与概述

Sonnet 4.6 代表 Anthropic 在实用型模型上的重要进展。模型在多个基准测试中表现出色,特别是在编程任务和知识工作方面。独立第三方评估显示,该模型在 GDPval-AA 排行榜上名列前茅,但需要注意的是其 token 消耗量是前代模型的 4.8 倍,这可能增加实际使用成本。

技术层面的改进包括测试版 1M token 上下文窗口和升级的网络搜索工具。前者支持超长文档处理,后者通过执行代码来筛选搜索结果,显著提升了准确性。然而早期用户反馈揭示了模型存在的稳定性问题,包括幻觉和结构化输出错误,这些问题随后得到修复。

从市场定位来看,Sonnet 4.6 被设计为长期任务的主力模型,而 Opus 仍保留作为最高性能选项。这种策略反映了 Anthropic 在性能和成本之间寻求平衡的思路,同时也暴露了当前 AI 模型发展中算力消耗与性能提升之间的权衡关系。

核心概念及解读

Sonnet 4.6:Anthropic 发布的中端模型升级版,在保持价格不变的同时实现接近 Opus 级别的性能提升,定位为长期任务的主力工作模型。

1M 上下文窗口(1M Context Window):测试版功能,支持处理超长文档和复杂任务,为模型提供更大的信息容量和更长的记忆跨度。

GDPval-AA:由 Artificial Analysis 开发的代理型知识工作评估基准,测试模型在复杂任务中的实际表现,Sonnet 4.6 在该榜单上名列第一。

计算机使用(Computer Use):Claude 的核心能力之一,经过一年多发展从初期不成熟状态演变为更可靠的 Claude Cowork 功能,在用户反馈中表现优于竞品。

Token 消耗权衡:Sonnet 4.6 在 GDPval-AA 测试中使用了 280M tokens,是 4.5 版本的 4.8 倍,揭示了性能提升背后隐藏的成本和延迟问题。


原文信息

字段内容
原文[AINews] Claude Sonnet 4.6:clean upgrade of 4.5, mostly better with some caveats
作者Latent.Space
发表日期2026-02-18

此摘要卡片由 AI 自动生成