SWE-Bench Verified 评估基准的终结
摘要
OpenAI 正式宣布不再使用 SWE-Bench Verified 作为代码能力评估基准。经过深入分析发现,该基准已饱和且存在严重数据污染:超过60%的剩余问题要么测试定义过窄导致拒绝正确答案,要么要求未明确说明的额外功能。更严重的是,所有前沿模型都能通过任务ID复现原始测试用例,证明训练数据已被污染。OpenAI 现推荐转向 SWE-Bench Pro,并强调未来评估需要关注更长期任务、开放式设计决策、代码质量和真实产品构建等维度。
内容框架与概述
SWE-Bench Verified 曾是评估 AI 代码能力的重要基准,但近期各前沿模型的分数都停留在80%左右,进展停滞。OpenAI 组织六名工程师深入审查138个问题后,发现了两个致命缺陷。一是测试设计本身存在严重缺陷,49个测试定义过于狭窄,26个测试则要求了问题描述中从未提及的功能。这使得即使功能正确的代码也无法通过测试。
数据污染问题更为严重。OpenAI 发现所有前沿模型仅凭任务ID就能逐字复现原始补丁或问题陈述,这证明测试数据已经泄露到训练数据中。当 GPT-5.2 解决了理论上无法解决的问题时,团队通过审查思维链发现模型知晓了未被明确说明的测试要求,从而确认了污染的存在。
这一决定标志着 AI 代码评估进入新阶段。OpenAI 已开始报告 SWE-Bench Pro 分数,尽管其在此基准上并非领先。团队正在探索更开放的评估方式,包括更长期任务、开放式设计决策、代码质量和可维护性、真实产品构建以及需要领域知识的人工评估。这些新方向与 OpenAI 的 Preparedness Framework 相契合。
核心概念及解读
SWE-Bench Verified:由普林斯顿实验室创建的代码评估基准,从真实 GitHub 仓库提取问题并要求 AI 代理通过测试来评估代码能力。OpenAI 曾对其进行了清理和验证。
基准饱和(Benchmark Saturation):指评估基准上模型分数接近理论上限,导致无法有效区分不同模型的能力差异。SWE-Bench Verified 已进入此状态。
数据污染(Data Contamination):测试数据意外或有意地泄露到模型训练数据中的现象。当模型仅凭任务ID就能复现测试用例时,证明污染已广泛存在。
测试泄漏(Test Leakage):测试用例或答案在训练过程中暴露给模型,使其能够记忆而非真正解决问题。这是当前基准评估面临的系统性挑战。
人工密集型评估(Human-Intensive Evaluation):需要领域专家进行主观质量判断的评估方式,可能成为未来评估代码质量、设计决策和实际产品价值的重要方向。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | ⚡️The End of SWE-Bench Verified — Mia Glaese & Olivia Watkins, OpenAI Frontier Evals & Human Data |
| 作者 | Latent.Space |
| 发表日期 | 2026-02-24 |
此摘要卡片由 AI 自动生成