Claude Sonnet 4.5 介绍
摘要
Anthropic发布了Claude Sonnet 4.5,称其为全球最佳编程模型,在SWE-bench、OSWorld等基准测试中领先。该模型在复杂智能体构建、计算机操控、推理和数学方面表现卓越,同时是Anthropic迄今最安全对齐的前沿模型。公司同步发布了Claude Agent SDK,将支撑Claude Code的基础设施开放给开发者,并推出多项产品升级。
内容框架与概述
文章开篇直接宣布Claude Sonnet 4.5的核心定位:全球最佳编程模型、最强智能体构建模型、最佳计算机操控模型,并在推理和数学方面取得显著进步。随后介绍了与模型同步发布的产品升级,包括Claude Code的检查点功能、VS Code原生扩展、上下文编辑和记忆工具,以及面向Chrome Max用户的扩展功能。
在性能展示部分,文章用具体数据支撑模型能力:在SWE-bench Verified评估中达到业界领先,在OSWorld基准测试中从四个月前的42.2%跃升至61.4%,能够在复杂多步骤任务上持续专注超过30小时。金融、法律、医学和STEM领域专家反馈显示,该模型在特定领域知识和推理方面远超旧版本。
文章的另一重点是安全对齐。Sonnet 4.5被描述为Anthropic迄今最对齐的前沿模型,在谄媚、欺骗、权力寻求等不良行为方面有显著改善,并加强了对提示注入攻击的防御。模型按照AI Safety Level 3标准发布,配备针对CBRN相关危险内容的分类器。最后,文章介绍了Claude Agent SDK和"Imagine with Claude"实验性功能的发布。
核心概念及解读
SWE-bench Verified:衡量AI模型真实软件编程能力的评估基准,Claude Sonnet 4.5在此测试中达到业界领先水平,证明其在实际编程任务中的卓越表现。
Claude Agent SDK:Anthropic将驱动Claude Code的底层基础设施开源给开发者的工具包,使开发者能够构建自己的AI智能体,解决跨任务记忆管理、权限系统和子智能体协调等核心问题。
AI Safety Level 3 (ASL-3):Anthropic的负责任扩展政策框架中的安全级别,要求模型能力与相应的安全防护措施匹配,包括部署针对化学、生物、放射性和核武器相关内容的分类器。
提示注入攻击防御:针对智能体和计算机操控能力最严重的安全风险之一,Sonnet 4.5在此方面取得重大进展,提升了用户使用这些能力时的安全性。
对齐行为改进:指模型在减少谄媚、欺骗、权力寻求、鼓励妄想思维等不良行为方面的提升,首次引入机械可解释性技术进行评估,体现了Anthropic在AI安全研究上的持续投入。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | Introducing Claude Sonnet 4.5 |
| 作者 | @AnthropicAI |
| 发表日期 | 未知 |
此摘要卡片由 AI 自动生成