Latent.Space · 2026-02-24

SWE-Bench Verified 评估基准的终结

摘要

OpenAI 正式宣布不再使用 SWE-Bench Verified 作为代码能力评估基准。经过深入分析发现,该基准已饱和且存在严重数据污染:超过60%的剩余问题要么测试定义过窄导致拒绝正确答案,要么要求未明确说明的额外功能。更严重的是,所有前沿模型都能通过任务ID复现原始测试用例,证明训练数据已被污染。OpenAI 现推荐转向 SWE-Bench Pro,并强调未来评估需要关注更长期任务、开放式设计决策、代码质量和真实产品构建等维度。

内容框架与概述

SWE-Bench Verified 曾是评估 AI 代码能力的重要基准,但近期各前沿模型的分数都停留在80%左右,进展停滞。OpenAI 组织六名工程师深入审查138个问题后,发现了两个致命缺陷。一是测试设计本身存在严重缺陷,49个测试定义过于狭窄,26个测试则要求了问题描述中从未提及的功能。这使得即使功能正确的代码也无法通过测试。

数据污染问题更为严重。OpenAI 发现所有前沿模型仅凭任务ID就能逐字复现原始补丁或问题陈述,这证明测试数据已经泄露到训练数据中。当 GPT-5.2 解决了理论上无法解决的问题时,团队通过审查思维链发现模型知晓了未被明确说明的测试要求,从而确认了污染的存在。

这一决定标志着 AI 代码评估进入新阶段。OpenAI 已开始报告 SWE-Bench Pro 分数,尽管其在此基准上并非领先。团队正在探索更开放的评估方式,包括更长期任务、开放式设计决策、代码质量和可维护性、真实产品构建以及需要领域知识的人工评估。这些新方向与 OpenAI 的 Preparedness Framework 相契合。

核心概念及解读

SWE-Bench Verified:由普林斯顿实验室创建的代码评估基准,从真实 GitHub 仓库提取问题并要求 AI 代理通过测试来评估代码能力。OpenAI 曾对其进行了清理和验证。

基准饱和(Benchmark Saturation):指评估基准上模型分数接近理论上限,导致无法有效区分不同模型的能力差异。SWE-Bench Verified 已进入此状态。

数据污染(Data Contamination):测试数据意外或有意地泄露到模型训练数据中的现象。当模型仅凭任务ID就能复现测试用例时,证明污染已广泛存在。

测试泄漏(Test Leakage):测试用例或答案在训练过程中暴露给模型,使其能够记忆而非真正解决问题。这是当前基准评估面临的系统性挑战。

人工密集型评估(Human-Intensive Evaluation):需要领域专家进行主观质量判断的评估方式,可能成为未来评估代码质量、设计决策和实际产品价值的重要方向。


原文信息


此摘要卡片由 AI 自动生成