@AnthropicAI · 2026-02-06

Anthropic 发布 Claude Opus 4.6：更强编码能力的 AI 模型

摘要

Anthropic 于 2026年2月5日发布新一代旗舰模型 Claude Opus 4.6。该模型在编码能力、任务规划和代码审查方面有显著提升，可处理更大规模代码库，首次在测试版中支持百万 token 上下文窗口。在 Terminal-Bench 2.0、Humanity’s Last Exam 和 GDPval-AA 等多项行业基准测试中取得最高分。同时发布 Claude Code 代理团队、压缩和自适应思考等新功能，并强化 Excel 和 PowerPoint 集成。安全评估显示其对齐表现达到或优于所有前沿模型。

内容框架与概述

文章首先介绍 Claude Opus 4.6 的核心升级，包括编码规划、长期代理任务和代码库操作能力的提升，以及百万 token 上下文窗口的新特性。随后展示模型在多项行业基准测试中的领先成绩，包括编程评估和跨领域专业知识测试。文章还介绍了开发者平台的新功能，如自适应思考和 effort 控制参数，以及 Claude 在办公软件中的新集成。最后详细说明安全改进，包括网络攻防能力增强和针对性安全探测方法。

核心概念及解读

代理团队：Claude Code 中的新功能，允许多个 AI 代理协同工作完成复杂任务。 自适应思考：模型可根据任务上下文自动决定是否需要深度推理，优化思考效率。 上下文压缩：Claude 可自主总结和压缩对话上下文，突破传统 token 限制。 Terminal-Bench 2.0：评估 AI 代理编程能力的行业基准，Opus 4.6 取得最高分。 GDPval-AA：衡量经济价值工作表现的评估体系，Opus 4.6 领先 GPT-5.2 高达 144 Elo 分。