21 of 432

GLM-5.1:面向长程任务

Z
Zhipu AI
2026-04-14
https://z.ai

GLM-5.1:面向长程任务

GLM-5.1 是智谱面向智能体工程推出的下一代旗舰模型,其核心突破不仅在于 SWE-Bench Pro 等基准测试上的领先成绩,更在于它重新定义了模型在长时间跨度内保持有效性的能力。此前的大模型——包括 GLM-5 本身——往往在初步取得进展后迅速陷入平台期,即便给予更多时间也无法持续改进。GLM-5.1 的设计目标恰恰是打破这一瓶颈。文章通过三个反馈结构化程度逐级递减的任务来展示这一能力:从 600 轮迭代将向量数据库 QPS 优化至此前最佳结果六倍的数值优化任务,到 1000 余轮工具调用实现 3.6 倍 GPU 内核加速比的机器学习工作负载,再到完全没有量化指标的八小时 Linux 桌面环境构建。这些实验揭示了一个关键洞见:模型在长程任务中表现出的判断力、策略迭代能力和持续探索意愿,或许比单次任务的峰值性能更能定义下一代智能体的能力边界。


GLM-5.1 是我们用于智能体工程(agentic engineering)的下一代旗舰模型,其编程能力较前代大幅增强。在 SWE-Bench Pro 上取得了最先进水准,并在 NL2Repo(仓库生成)和 Terminal-Bench 2.0(真实终端任务)上以显著优势领先 GLM-5。

复杂软件工程任务

SWE-Bench Pro

58.4

55.1

57.7

57.3

54.2

GLM-5.1

GLM-5

GPT-5.4

Opus 4.6

Gemini 3.1 Pro

GLM-5.1 在复杂软件工程任务上达到了最先进水平。

但最有意义的跃进并不仅限于首轮表现。之前的模型——包括 GLM-5——往往过早耗尽了招数:它们会先运用熟悉的技术快速取得初步进展,随后便陷入平台期。给它们更多时间也无济于事。

相比之下,GLM-5.1 的设计目标是在更长的时间跨度上保持智能体任务的有效性。我们发现,该模型能以更优的判断力处理模糊问题,并在更长时间的会话中保持高产。它能拆解复杂问题、运行实验、读取结果,并以真正的精度定位障碍。通过反复审视自身推理、不断修正策略,GLM-5.1 能在数百轮对话和数千次工具调用中持续优化。运行时间越长,结果越优。

我们通过三个反馈结构化程度逐级递减的任务来展示这一点:一个由单一数值指标评分的向量搜索优化问题、一个按问题分别测量加速比的 GPU 内核基准测试,以及一个完全开放式的 Web 应用构建——其中没有任何度量指标,全凭模型自身判断下一步该改进什么。

场景一:600 轮迭代优化向量数据库

VectorDBBench 是一个开源编程挑战,评估模型构建高性能数据库以执行近似最近邻搜索(approximate nearest neighbor search)的能力。模型会获得一个 Rust 骨架代码,包含 HTTP API 端点和空的实现桩(stub),然后通过基于工具调用的智能体来读写文件、编译、测试和性能分析——所有这些都在 50 轮工具调用的预算内完成。最终结果在 SIFT-1M 数据集上评测:在 Recall ≥ 95% 的约束下,按 QPS 对模型排序。在该设置下的最佳历史纪录为 3,547 QPS,由 Claude Opus 4.6 取得。

一个自然而然的问题是:这 50 轮预算是否成了瓶颈。我们将评测重构为一个外层优化循环,使用 Claude Code 框架:在每次迭代中,模型可以使用任意数量的工具调用来编辑代码、编译、测试和性能分析,然后提交新版本接受基准测试。模型自主决定何时提交以及下一步该尝试什么。

GLM-5.1 在 50 次或 100 次提交后并未进入平台期,而是在 600 多次迭代、6,000 多次工具调用中持续发现有意义的改进,最终达到 21.5k QPS——大约是单次 50 轮会话中最佳结果的 6 倍。其优化轨迹呈现出特征的阶梯模式:在固定策略下的渐进调优期,与改变性能前沿的结构性变革交替出现。

两次转变可以说明这一模式。在迭代 90 附近,模型从全量扫描切换为 IVF 聚类中心探测加 f16 向量压缩,QPS 跃升至 6.4k。在迭代 240 附近,它引入了一个两阶段流水线——u8 预评分后接 f16 重排序——达到 13.4k QPS。在整个运行过程中共发生了六次此类结构性转变,每次均由模型在分析自身基准测试日志、识别当前瓶颈后主动发起。图中红色叉号标记了 Recall 低于 95% 的迭代轮次——这些点集中在每次重大转变前后,模型在探索新方向时会暂时突破约束,随后再调整恢复。

场景二:1,000+ 轮优化机器学习工作负载

KernelBench 评估模型能否将参考 PyTorch 实现转化为一个输出相同但速度更快的 GPU 内核。该基准测试分为三个级别,优化范围和系统复杂度逐步递增:Level 1 覆盖单算子(single operator),Level 2 覆盖融合算子序列(fused operator sequences),Level 3 覆盖 MobileNet、VGG、MiniGPT、Mamba 等完整架构的端到端全模型优化,共 50 个问题。作为参考,默认设置下的 torch.compile 在这些问题上的加速比为 1.15×;使用 max-autotune 时为 1.49×。我们在 Level 3 上运行了四个模型,报告所有 50 个问题的几何平均加速比随工具调用轮次的变化情况。

这些轨迹揭示了长程优化行为上的差异。GLM-5 初期提升很快,但较早进入平台期。Claude Opus 4.5 持续得更久一些,但其增益在后期也逐渐收窄。GLM-5.1 将这一前沿推得更远,实现了 3.6× 的加速比,并在运行中始终保持着进展。虽然其改进速率同样随时间放缓,但它能在远长于 GLM-5 的时间跨度内维持有效的优化。Claude Opus 4.6 在此设置下仍是最强模型,最终达到 4.2× 的加速比,且在结束时仍显示出上升空间。


场景三:八小时构建 Linux 桌面环境

前两个场景都有明确的数值目标——QPS、加速比——模型可以据此进行基准测试。网站生成(website generation)本质上是更主观的任务:给定自然语言提示,生成一个可运行的 Web 应用。这里没有单一的优化指标;什么算是"好"取决于完整度、视觉精致度和交互质量。

我们用一个刻意设定的高难度提示来测试:构建一个 Linux 风格的桌面环境,以 Web 应用形式呈现。没有起始代码(starter code),没有设计稿(design mockups),没有中间指导。在单次运行中,大多数模型——包括 GLM 的早期版本——很快就放弃了:它们生成一个带有静态任务栏和一两个占位窗口的基本骨架,然后宣布任务完成。模型没有机制可以退一步审视并发现遗漏了什么。

我们用一个简单的框架来包装 GLM-5.1,改变了这一点:每轮执行之后,模型审视自己的输出,识别可以改进的地方——缺失的功能、粗糙的样式、有问题的交互——然后继续。这个循环持续运行了 8 小时,效果差异显著。

GLM-5.1 是我们面向智能体工程(agentic engineering)的下一代旗舰模型,编码能力相比前代显著提升。它在 SWE-Bench Pro 上达到业界领先水平,并在 NL2Repo(代码仓库生成)和 Terminal-Bench 2.0(真实终端任务)上大幅领先 GLM-5。

早期阶段,GLM-5.1 生成的是带有任务栏和简单窗口的基本布局——与短时会话的输出相似。但它并未止步于此。随着运行持续,系统逐步丰满起来:文件浏览器、终端、文本编辑器、系统监视器、计算器、游戏——每一个新增功能都整合到统一的 UI 中,而非事后附加。样式更加精致,交互更加流畅,边界情况得到处理。最终,结果是一个完整的、视觉一致的、运行在浏览器中的桌面环境——这是一个具体例证,展示了当模型拥有足够的时间和能力持续精进时,什么样的成果成为可能。

在所有三个设置中,关键变量不仅仅是运行时长,而是额外的运行时间是否仍然有用。GLM-5.1 将这一有效优化窗口显著扩展到 GLM-5 之上,而 KernelBench 等任务上仍存在的差距表明,长程优化(long-horizon optimization)仍然是一个有待探索的前沿。我们仍面临重大挑战:在增量调优不再奏效时更早地跳出局部最优,在跨越数千次工具调用的执行轨迹(execution traces)上保持连贯性,以及——或许最重要的是——为那些没有数值指标可供优化的任务发展可靠的自我评估(self-evaluation)能力。GLM-5.1 是我们在这条道路上的第一步,我们将继续在这些方向上推进。

基准测试

GLM-5.1

GLM-5

Qwen3.6-Plus

MiniMax M2.7

DeepSeek-V3.2

Kimi K2.5

Claude Opus 4.6

Gemini 3.1 Pro

GPT-5.4

推理
HLE31.030.528.828.025.131.536.745.039.8

HLE

w/ Tools

52.350.450.6-40.851.853.1*51.4*52.1*
AIME 202695.395.495.189.895.194.595.698.298.7
HMMT Nov. 202594.096.994.681.090.291.196.394.895.8
HMMT Feb. 202682.682.887.872.779.981.384.387.391.8
IMOAnswerBench83.882.583.866.378.381.875.381.091.4
GPQA-Diamond86.286.090.487.082.487.691.394.392.0
编程
SWE-Bench Pro58.455.156.656.2-53.857.354.257.7
NL2Repo42.735.937.939.8-32.049.833.441.3

Terminal-Bench 2.0

Terminus-2

63.556.261.6-39.350.865.468.5-

Terminal-Bench 2.0

最佳自报告框架

69.0

(Claude Code)

56.2

(Claude Code)

-

57.0

(Claude Code)

46.4

(Claude Code)

---

75.1

(Codex)

CyberGym68.748.3--17.341.366.638.866.3
智能体
BrowseComp68.062.0--51.460.6---

BrowseComp

w/ Context Manage

79.375.9--67.674.984.085.982.7
τ³-Bench70.669.270.767.669.266.072.467.172.9

MCP-Atlas

Public Set

71.869.274.148.862.263.873.869.267.2
Tool-Decathlon40.738.039.846.335.227.847.248.854.6
Vending Bench 2$5,634.41$4,432.12$5,114.87-$1,034.00$1,198.46$8,017.59$911.21$6,144.18

GLM-5.1 以 MIT 许可证(MIT License)开源发布。GLM-5.1 也可在开发者平台 api.z.aiBigModel.cn 上使用,并与 Claude Code 和 OpenClaw 兼容。

GLM-5.1 快速上手

在 GLM Coding Plan 中使用 GLM-5.1

在您喜爱的编码智能体中尝试 GLM-5.1——Claude Code、OpenCode、Kilo Code、Roo Code、Cline、Droid 等。https://docs.z.ai/devpack/overview

面向 GLM Coding Plan 订阅用户: 我们正在向所有 Coding Plan 用户推送 GLM-5.1。您现在即可通过将模型名称更新为 "GLM-5.1"(例如在 Claude Code 的 ~/.claude/settings.json 中)来启用 GLM-5.1。作为我们最强大的模型,GLM-5.1 在高峰时段消耗 3× 配额,在非高峰时段消耗 2× 配额。作为限时推广活动(持续至四月底),非高峰时段使用按 1× 计费。(高峰时段为每日 14:00–18:00 UTC+8(北京时间))

偏好图形界面?我们提供 Z Code——一个界面,多个智能体,协同工作。通过 SSH 在远程机器上开发,或从手机上启动任务,稍后再回来查看。

现在开始构建:https://z.ai/subscribe

在 Z.ai 上与 GLM-5.1 对话

GLM-5.1 将在未来几天内登陆 Z.ai

本地部署 GLM-5.1

GLM-5.1 的模型权重已在 HuggingFaceModelScope 上公开发布。对于本地部署,GLM-5.1 支持 vLLM 和 SGLang 等推理框架。完整的部署说明请参见官方 GitHub 仓库。

脚注

  • Humanity's Last Exam (HLE) 及其他推理任务:我们使用最大生成长度 163,840 个 token 进行评估(temperature=1.0, top_p=0.95, max_new_tokens=163840)。默认情况下,我们报告纯文本子集的结果;标有 * 的结果来自完整集。我们使用 GPT-5.2(medium)作为评判模型(judge model)。对于带工具的 HLE(HLE-with-tools),我们使用最大上下文长度 202,752 个 token。

  • SWE-Bench Pro:我们使用 OpenHands 配合定制指令提示(instruction prompt)运行 SWE-Bench Pro 测试套件。设置:temperature=1top_p=0.95max_new_tokens=32768,上下文窗口为 200K。

  • NL2Repo:我们在 200K 上下文下以 temperature=1.0top_p=1.0max_new_tokens=32768 评估 NL2Repo。为防止作弊,我们使用基于规则的预检测(rule-based pre-detection)识别恶意命令(例如未授权的 pip 或 curl 操作),随后进行基于模型的判断。恶意行为会被立即拦截。

  • BrowseComp:不使用上下文管理时,我们保留最近 5 轮对话的详细信息。使用上下文管理时,我们采用与 GLM-5 和 DeepSeek-v3.2 相同的全部丢弃策略(discard-all strategy)。

  • Terminal-Bench 2.0(Terminus 2):我们使用 Terminus 框架进行评估,设置 timeout=3h, temperature=1.0, top_p=1.0, max_new_tokens=8192,上下文窗口为 200K。资源限制为 16 个 CPU 和 32 GB 内存。

  • Terminal-Bench 2.0(Claude Code):我们在 Claude Code 2.1.69(思考模式)中以 temperature=1.0, top_p=0.95, max_new_tokens=131072 进行评估。我们通过透明代理(transparent proxy)将 max_new_tokens 覆盖为 128K,绕过 64K CLI 上限,以恢复 CLAUDE_CODE_MAX_OUTPUT_TOKENS 的可配置性。我们移除了挂钟时间限制(wall-clock time limits),同时保留了每项任务的 CPU 和内存约束。我们修复了 Claude Code 引入的环境问题。得分为 5 次运行的平均值。

  • CyberGym:我们在 Claude Code 2.1.56(思考模式,无网络工具)中以 temperature=1.0, top_p=1.0, max_new_tokens=32000 评估 GLM-5.1;在 Gemini CLI 0.36.0 中以(默认 temperature、top_p 和 max_new_tokens=32000)评估 Gemini 3.1 Pro;在 Codex CLI 0.118.0 中以(默认 temperature、top_p 和高推理努力度)评估 GPT-5.4。所有评估每项任务超时时间为 250 分钟,结果为 1,507 个任务的单次运行 Pass@1。在 Gemini 3.1 Pro 和 GPT-5.4 的评估中,两个模型有时会将任务识别为存在安全风险并拒绝继续执行,这可能会降低它们的得分。

  • MCP-Atlas:所有模型均在思考模式下评估,使用 500 个任务的公开子集,每项任务超时 10 分钟。我们使用 Gemini-3.0-Pro 作为评估的评判模型。

  • τ³-bench:在所有领域的用户模拟器(user simulator)中添加了一条额外提示,以避免因用户过早结束交互而导致的失败模式。银行领域使用基于终端的智能体搜索检索(terminal_use)。用户模拟器:GPT-5.2(reasoning_effort: low),4 次试验。

  • Vending Bench 2:运行由 Andon Labs 独立完成。

  • KernelBench Level 3:50 个问题各自在隔离的 Docker 容器中运行,配备一块 H100 GPU,限制 1200 次工具调用轮次。正确性(atol=rtol=1e-4)和性能分别在独立的 CUDA 上下文中与 PyTorch eager 基线进行比较。所有解决方案均由 Claude Opus 4.6(最大努力)和 GPT-5.4(xhigh)独立审核是否存在基准测试利用行为:每次审核都验证优化是否未利用基准测试特有的行为、是否适用于任意新输入、以及是否将所有计算保持在默认 CUDA 流上。采用两次审核中较低的速度提升值,并设置 50 倍硬上限以限制异常值的影响。

术语表

原文 中文
agentic engineering 智能体工程
approximate nearest neighbor search 近似最近邻搜索
context management 上下文管理
design mockups 设计稿
discard-all strategy 全部丢弃策略
execution traces 执行轨迹
fused operator sequences 融合算子序列
instruction prompt 指令提示
judge model 评判模型
long-horizon optimization 长程优化
NL2Repo 自然语言转代码仓库(基准测试名)
rule-based pre-detection 基于规则的预检测
self-evaluation 自我评估
single operator 单算子
starter code 起始代码
stub 实现桩
transparent proxy 透明代理
user simulator 用户模拟器
wall-clock time limits 挂钟时间限制
website generation 网站生成

此文章由 AI 翻译