Latent.Space · 2026-02-24

SWE-Bench Verified 评估基准的终结

摘要

OpenAI 正式宣布不再使用 SWE-Bench Verified 作为代码能力评估基准。经过深入分析发现，该基准已饱和且存在严重数据污染：超过60%的剩余问题要么测试定义过窄导致拒绝正确答案，要么要求未明确说明的额外功能。更严重的是，所有前沿模型都能通过任务ID复现原始测试用例，证明训练数据已被污染。OpenAI 现推荐转向 SWE-Bench Pro，并强调未来评估需要关注更长期任务、开放式设计决策、代码质量和真实产品构建等维度。

内容框架与概述

SWE-Bench Verified 曾是评估 AI 代码能力的重要基准，但近期各前沿模型的分数都停留在80%左右，进展停滞。OpenAI 组织六名工程师深入审查138个问题后，发现了两个致命缺陷。一是测试设计本身存在严重缺陷，49个测试定义过于狭窄，26个测试则要求了问题描述中从未提及的功能。这使得即使功能正确的代码也无法通过测试。

数据污染问题更为严重。OpenAI 发现所有前沿模型仅凭任务ID就能逐字复现原始补丁或问题陈述，这证明测试数据已经泄露到训练数据中。当 GPT-5.2 解决了理论上无法解决的问题时，团队通过审查思维链发现模型知晓了未被明确说明的测试要求，从而确认了污染的存在。

这一决定标志着 AI 代码评估进入新阶段。OpenAI 已开始报告 SWE-Bench Pro 分数，尽管其在此基准上并非领先。团队正在探索更开放的评估方式，包括更长期任务、开放式设计决策、代码质量和可维护性、真实产品构建以及需要领域知识的人工评估。这些新方向与 OpenAI 的 Preparedness Framework 相契合。

核心概念及解读

SWE-Bench Verified：由普林斯顿实验室创建的代码评估基准，从真实 GitHub 仓库提取问题并要求 AI 代理通过测试来评估代码能力。OpenAI 曾对其进行了清理和验证。

基准饱和（Benchmark Saturation）：指评估基准上模型分数接近理论上限，导致无法有效区分不同模型的能力差异。SWE-Bench Verified 已进入此状态。

数据污染（Data Contamination）：测试数据意外或有意地泄露到模型训练数据中的现象。当模型仅凭任务ID就能复现测试用例时，证明污染已广泛存在。

测试泄漏（Test Leakage）：测试用例或答案在训练过程中暴露给模型，使其能够记忆而非真正解决问题。这是当前基准评估面临的系统性挑战。

人工密集型评估（Human-Intensive Evaluation）：需要领域专家进行主观质量判断的评估方式，可能成为未来评估代码质量、设计决策和实际产品价值的重要方向。

原文信息

字段	内容
原文	⚡️The End of SWE-Bench Verified — Mia Glaese & Olivia Watkins, OpenAI Frontier Evals & Human Data
作者	Latent.Space
发表日期	2026-02-24

此摘要卡片由 AI 自动生成

‹

Karpathy：为AI代理而建

karpathy · 2026-02-24

AI时代生存法则：纳瓦尔谈氛围编程与个人杠杆

跨国串门儿计划 · 2026-02-24

›

SWE-Bench Verified 评估基准的终结

摘要

内容框架与概述

核心概念及解读

原文信息

目录