2025-11-25

Claude Opus 4.5 与大模型评估难题

摘要

Anthropic 发布 Claude Opus 4.5，以200,000 token上下文窗口、64,000 token输出限制和5/25美元的定价定位为编码与智能体专用模型。Simon Willison 通过实际编码测试发现，新模型与前代 Sonnet 4.5 在日常任务中差异难以察觉，暴露出前沿大模型评估日益困难的现实问题。作者质疑基准测试的实用价值，呼吁AI实验室发布具体任务示例对比，而非依赖抽象的性能指标。

内容框架与概述

文章开篇介绍 Claude Opus 4.5 的发布背景与技术规格，强调其作为编码优化模型的定位和相比前代大幅降低的价格优势。作者详细阐述了新模型的三大核心改进：可调节的努力参数、增强的计算机操作缩放工具，以及思考块在上下文中的持久化保留，这些特性旨在提升复杂任务的处理效率。

随后作者分享了使用 Opus 4.5 进行大规模代码重构的亲身经历，在20次提交中完成了两千多行代码的改动。然而关键转折在于，当预览权限过期后切换回 Sonnet 4.5，作者发现工作节奏并未受到影响，这一发现引发了对新模型实际性能提升的深刻质疑。

文章进一步探讨了大模型评估的普遍困境，基准测试如 SWE-bench 显示的个位数百分比差距对现实应用意义不大。作者坦言自己缺乏超越前沿模型能力的挑战任务集，建议人们记录模型失败案例以便后续评估，并呼吁 AI 实验室在新模型发布时提供具体任务示例对比，而非仅依赖抽象的基准测试数据。

最后作者分析了 Opus 4.5 在提示词注入防护方面的改进，虽然图表显示成功率显著降低，但单次尝试仍有约5%的成功率，十次尝试可达三分之一。作者坚持认为训练防御不是根本解决方案，应用设计仍需假设模型可被欺骗。

核心概念及解读

努力参数：Opus 4.5 新增的可调节参数，默认设置为高，但可降至中或低以换取更快的响应速度，为用户提供性能与速度的平衡选项。

计算机操作增强：新增的缩放工具允许模型请求放大屏幕特定区域进行检查，提升了模型进行视觉推理和精细操作的准确性。

思考块持久化：与前代模型丢弃思考过程不同，Opus 4.5 默认在上下文中保留前几轮对话的思考块，有助于维持复杂任务的连贯性。

提示词注入攻击：通过偷运欺骗性指令操纵模型表现有害行为的攻击方式，尽管 Opus 4.5 的防御能力有所提升，但作者认为仍需假设模型可被攻破。

原文信息

字段	内容
原文	Claude Opus 4.5，以及为什么评估新的大语言模型越来越困难Simon Willison
作者
发表日期	2025-11-25T12:44:00+00:00

此摘要卡片由 AI 自动生成

Claude Opus 4.5 与大模型评估难题

摘要

内容框架与概述

核心概念及解读

原文信息

目录