@AnthropicAI · 2026-02-06

Anthropic 发布 Claude Opus 4.6:更强编码能力的 AI 模型

摘要

Anthropic 于 2026年2月5日发布新一代旗舰模型 Claude Opus 4.6。该模型在编码能力、任务规划和代码审查方面有显著提升,可处理更大规模代码库,首次在测试版中支持百万 token 上下文窗口。在 Terminal-Bench 2.0、Humanity’s Last Exam 和 GDPval-AA 等多项行业基准测试中取得最高分。同时发布 Claude Code 代理团队、压缩和自适应思考等新功能,并强化 Excel 和 PowerPoint 集成。安全评估显示其对齐表现达到或优于所有前沿模型。

内容框架与概述

文章首先介绍 Claude Opus 4.6 的核心升级,包括编码规划、长期代理任务和代码库操作能力的提升,以及百万 token 上下文窗口的新特性。随后展示模型在多项行业基准测试中的领先成绩,包括编程评估和跨领域专业知识测试。文章还介绍了开发者平台的新功能,如自适应思考和 effort 控制参数,以及 Claude 在办公软件中的新集成。最后详细说明安全改进,包括网络攻防能力增强和针对性安全探测方法。

核心概念及解读

代理团队:Claude Code 中的新功能,允许多个 AI 代理协同工作完成复杂任务。 自适应思考:模型可根据任务上下文自动决定是否需要深度推理,优化思考效率。 上下文压缩:Claude 可自主总结和压缩对话上下文,突破传统 token 限制。 Terminal-Bench 2.0:评估 AI 代理编程能力的行业基准,Opus 4.6 取得最高分。 GDPval-AA:衡量经济价值工作表现的评估体系,Opus 4.6 领先 GPT-5.2 高达 144 Elo 分。


原文信息

字段内容
原文Claude Opus 4.6
作者@AnthropicAI
发表日期2026-02-06

此摘要卡片由 AI 自动生成