GLM-5技术报告:从氛围编程到智能体工程的范式转变
摘要
GLM-5是智谱AI推出的下一代基础模型,旨在推动编程范式从Vibe Coding向Agentic Engineering转型。模型采用DSA稀疏注意力机制大幅降低推理成本,通过异步RL基础设施和异步Agent RL算法提升训练效率和智能体能力,参数规模达744B,训练数据28.5T token。在Artificial Analysis、LMArena等主流基准测试中实现SOTA性能,上下文窗口扩展至200K,并全面适配国产算力生态。
内容框架与概述
文章首先介绍了GLM-5的总体目标和主要成果。GLM-5在GLM-4.5的ARC能力基础上进行升级,通过四大技术创新实现了性能跃升。在多个基准测试中,GLM-5相比GLM-4.7提升约20%,与Claude Opus 4.5和GPT-5.2相当,成为新的开源SOTA模型。文章详细展示了GLM-5在Humanity’s Last Exam、SWE-bench Verified等8个基准测试上的表现,以及在LMArena文本和代码竞技场中位列开源模型第一的成绩。
文章详细阐述了GLM-5的四大技术创新。DSA稀疏注意力机制通过动态分配注意力资源,在不折损长上下文理解的前提下大幅削减算力开销。异步RL基础设施将生成与训练深度解耦,支持大规模Agent轨迹探索。异步Agent RL算法使模型能够从长周期交互中持续学习,优化动态环境下的规划与自我纠错能力。模型还全面适配了七大国产芯片平台。
文章深入介绍了GLM-5的预训练架构和基础设施。模型采用256个专家的MoE架构,参数量达744B,通过Muon Split优化器改进和参数共享的MTP机制提升训练效率。训练流程包括预训练、中期训练和后训练三个阶段,应用了跨阶段在线蒸馏技术防止灾难性遗忘。文章还介绍了内存效率优化、并行效率提升和INT4量化感知训练等工程创新。
核心概念及解读
DSA稀疏注意力:一种将密集注意力计算替换为动态细粒度选择机制的架构,通过审视内容决定哪些token重要,将长序列注意力计算降低约1.5-2倍,在保持长上下文理解能力的同时大幅削减算力开销。
异步RL基础设施:基于GLM-4.5的slime框架设计,将生成过程与训练过程深度解耦,支持模型开展大规模Agent轨迹探索,大幅提升GPU利用率,使RL后训练流程效率实现质的飞跃。
异步Agent RL算法:使模型能够从多样化长周期交互中持续学习的算法,针对动态环境下的规划与自我纠错能力进行深度优化,是GLM-5在真实编程场景中表现卓越的底层逻辑。
Muon Split:对GLM-4.5中Muon优化器的改进方案,将多头查询、键、值的上投影矩阵拆分为适用于不同注意力头的更小矩阵,使不同注意力头的投影权重能够以不同速率更新,有效提升MLA性能。
参数共享的MTP:在训练期间共享3个MTP层参数,保持草稿模型内存成本与DeepSeek-V3一致的同时提升接受率,解决MTP参数和KV缓存显存占用随推测步数线性增长的问题。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | GLM-5 技术报告:技术细节全公开 | BestBlogs.dev |
| 作者 | 智谱 |
| 发表日期 | 2026-02-22 |
此摘要卡片由 AI 自动生成