@AnthropicAI · 2025-09-30

Claude Sonnet 4.5 介绍

摘要

Anthropic发布了Claude Sonnet 4.5，称其为全球最佳编程模型，在SWE-bench、OSWorld等基准测试中领先。该模型在复杂智能体构建、计算机操控、推理和数学方面表现卓越，同时是Anthropic迄今最安全对齐的前沿模型。公司同步发布了Claude Agent SDK，将支撑Claude Code的基础设施开放给开发者，并推出多项产品升级。

内容框架与概述

文章开篇直接宣布Claude Sonnet 4.5的核心定位：全球最佳编程模型、最强智能体构建模型、最佳计算机操控模型，并在推理和数学方面取得显著进步。随后介绍了与模型同步发布的产品升级，包括Claude Code的检查点功能、VS Code原生扩展、上下文编辑和记忆工具，以及面向Chrome Max用户的扩展功能。

在性能展示部分，文章用具体数据支撑模型能力：在SWE-bench Verified评估中达到业界领先，在OSWorld基准测试中从四个月前的42.2%跃升至61.4%，能够在复杂多步骤任务上持续专注超过30小时。金融、法律、医学和STEM领域专家反馈显示，该模型在特定领域知识和推理方面远超旧版本。

文章的另一重点是安全对齐。Sonnet 4.5被描述为Anthropic迄今最对齐的前沿模型，在谄媚、欺骗、权力寻求等不良行为方面有显著改善，并加强了对提示注入攻击的防御。模型按照AI Safety Level 3标准发布，配备针对CBRN相关危险内容的分类器。最后，文章介绍了Claude Agent SDK和"Imagine with Claude"实验性功能的发布。

核心概念及解读

SWE-bench Verified：衡量AI模型真实软件编程能力的评估基准，Claude Sonnet 4.5在此测试中达到业界领先水平，证明其在实际编程任务中的卓越表现。

Claude Agent SDK：Anthropic将驱动Claude Code的底层基础设施开源给开发者的工具包，使开发者能够构建自己的AI智能体，解决跨任务记忆管理、权限系统和子智能体协调等核心问题。

AI Safety Level 3 (ASL-3)：Anthropic的负责任扩展政策框架中的安全级别，要求模型能力与相应的安全防护措施匹配，包括部署针对化学、生物、放射性和核武器相关内容的分类器。

提示注入攻击防御：针对智能体和计算机操控能力最严重的安全风险之一，Sonnet 4.5在此方面取得重大进展，提升了用户使用这些能力时的安全性。

对齐行为改进：指模型在减少谄媚、欺骗、权力寻求、鼓励妄想思维等不良行为方面的提升，首次引入机械可解释性技术进行评估，体现了Anthropic在AI安全研究上的持续投入。

原文信息

字段	内容
原文	Introducing Claude Sonnet 4.5
作者	@AnthropicAI
发表日期	2025-09-30

此摘要卡片由 AI 自动生成

Claude Sonnet 4.5 介绍

摘要

内容框架与概述

核心概念及解读

原文信息

目录