Latent.Space · 2026-02-18

Claude Sonnet 4.6 发布：接近 Opus 级别的升级

摘要

Anthropic 发布 Claude Sonnet 4.6，定位为最强大的 Sonnet 模型，在编程、计算机使用、长上下文推理等多个领域实现改进。基准测试显示 SWE-Bench Verified 达 79.6%，用户在 59% 场景下偏好该模型。然而性能提升伴随 token 消耗显著增加，部分用户反馈存在可靠性问题。

内容框架与概述

Sonnet 4.6 代表 Anthropic 在实用型模型上的重要进展。模型在多个基准测试中表现出色，特别是在编程任务和知识工作方面。独立第三方评估显示，该模型在 GDPval-AA 排行榜上名列前茅，但需要注意的是其 token 消耗量是前代模型的 4.8 倍，这可能增加实际使用成本。

技术层面的改进包括测试版 1M token 上下文窗口和升级的网络搜索工具。前者支持超长文档处理，后者通过执行代码来筛选搜索结果，显著提升了准确性。然而早期用户反馈揭示了模型存在的稳定性问题，包括幻觉和结构化输出错误，这些问题随后得到修复。

从市场定位来看，Sonnet 4.6 被设计为长期任务的主力模型，而 Opus 仍保留作为最高性能选项。这种策略反映了 Anthropic 在性能和成本之间寻求平衡的思路，同时也暴露了当前 AI 模型发展中算力消耗与性能提升之间的权衡关系。

核心概念及解读

Sonnet 4.6：Anthropic 发布的中端模型升级版，在保持价格不变的同时实现接近 Opus 级别的性能提升，定位为长期任务的主力工作模型。

1M 上下文窗口（1M Context Window）：测试版功能，支持处理超长文档和复杂任务，为模型提供更大的信息容量和更长的记忆跨度。

GDPval-AA：由 Artificial Analysis 开发的代理型知识工作评估基准，测试模型在复杂任务中的实际表现，Sonnet 4.6 在该榜单上名列第一。

计算机使用（Computer Use）：Claude 的核心能力之一，经过一年多发展从初期不成熟状态演变为更可靠的 Claude Cowork 功能，在用户反馈中表现优于竞品。

Token 消耗权衡：Sonnet 4.6 在 GDPval-AA 测试中使用了 280M tokens，是 4.5 版本的 4.8 倍，揭示了性能提升背后隐藏的成本和延迟问题。

原文信息

字段	内容
原文	[AINews] Claude Sonnet 4.6：clean upgrade of 4.5, mostly better with some caveats
作者	Latent.Space
发表日期	2026-02-18

此摘要卡片由 AI 自动生成

‹

如何构建Agent原生应用：四个应用的经验教训

Katie Parrott · 2026-02-18

自建隧道：爱好者的工程安全指南

by Wesley Crump · 2026-02-18

›

Claude Sonnet 4.6 发布：接近 Opus 级别的升级

摘要

内容框架与概述

核心概念及解读

原文信息

目录