Claude Opus 4.5 与大模型评估难题
摘要
Anthropic 发布 Claude Opus 4.5,以200,000 token上下文窗口、64,000 token输出限制和5/25美元的定价定位为编码与智能体专用模型。Simon Willison 通过实际编码测试发现,新模型与前代 Sonnet 4.5 在日常任务中差异难以察觉,暴露出前沿大模型评估日益困难的现实问题。作者质疑基准测试的实用价值,呼吁AI实验室发布具体任务示例对比,而非依赖抽象的性能指标。
内容框架与概述
文章开篇介绍 Claude Opus 4.5 的发布背景与技术规格,强调其作为编码优化模型的定位和相比前代大幅降低的价格优势。作者详细阐述了新模型的三大核心改进:可调节的努力参数、增强的计算机操作缩放工具,以及思考块在上下文中的持久化保留,这些特性旨在提升复杂任务的处理效率。
随后作者分享了使用 Opus 4.5 进行大规模代码重构的亲身经历,在20次提交中完成了两千多行代码的改动。然而关键转折在于,当预览权限过期后切换回 Sonnet 4.5,作者发现工作节奏并未受到影响,这一发现引发了对新模型实际性能提升的深刻质疑。
文章进一步探讨了大模型评估的普遍困境,基准测试如 SWE-bench 显示的个位数百分比差距对现实应用意义不大。作者坦言自己缺乏超越前沿模型能力的挑战任务集,建议人们记录模型失败案例以便后续评估,并呼吁 AI 实验室在新模型发布时提供具体任务示例对比,而非仅依赖抽象的基准测试数据。
最后作者分析了 Opus 4.5 在提示词注入防护方面的改进,虽然图表显示成功率显著降低,但单次尝试仍有约5%的成功率,十次尝试可达三分之一。作者坚持认为训练防御不是根本解决方案,应用设计仍需假设模型可被欺骗。
核心概念及解读
努力参数:Opus 4.5 新增的可调节参数,默认设置为高,但可降至中或低以换取更快的响应速度,为用户提供性能与速度的平衡选项。
计算机操作增强:新增的缩放工具允许模型请求放大屏幕特定区域进行检查,提升了模型进行视觉推理和精细操作的准确性。
思考块持久化:与前代模型丢弃思考过程不同,Opus 4.5 默认在上下文中保留前几轮对话的思考块,有助于维持复杂任务的连贯性。
提示词注入攻击:通过偷运欺骗性指令操纵模型表现有害行为的攻击方式,尽管 Opus 4.5 的防御能力有所提升,但作者认为仍需假设模型可被攻破。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | Claude Opus 4.5,以及为什么评估新的大语言模型越来越困难Simon Willison |
| 作者 | |
| 发表日期 | 2025-11-25T12:44:00+00:00 |
此摘要卡片由 AI 自动生成