Cognition
·
2026-03-02
SWE-1.6 预览版与研究进展
摘要
Cognition.ai 发布了 SWE-1.6 模型的训练进展,该模型基于与 SWE-1.5 相同的预训练模型,推理速度保持 950 tok/s。在 SWE-Bench Pro 基准测试中,SWE-1.6 得分比 SWE-1.5 高出 11%。团队发现强化学习训练引发了模型过度思考和过度自我验证等问题,因此提出 Model UX 这一新研究维度。训练基础设施经过优化后速度提升 6 倍,采用 NVFP4 精度实现 2-3 倍吞吐量提升。团队同时分享了 GPU 分配的数学模型以优化推理与训练的资源配置。
内容框架与概述
文章首先介绍 SWE-1.6 模型的核心性能提升和早期用户测试计划。作者指出模型虽然在基准测试上表现优异,但出现了过度思考等影响用户体验的行为,因此提出 Model UX 这一新研究维度。接着详细阐述了训练系统的工程优化,包括使用 NVFP4 精度、KV 缓存优化、多节点 NVLink 等技术使训练速度提升 6 倍。最后部分建立了一个理论模型,用于计算推理 GPU 与训练 GPU 的最优分配比例,并推导出基于测量吞吐量的staleness表达式。
核心概念及解读
SWE-1.6:Cognition.ai 开发的下一代软件工程模型,在 SWE-Bench Pro 基准上比前代提升 11%。
Model UX:指模型的用户体验维度,包括过度思考、过度自我验证等行为,当前基准测试未涵盖此维度。
NVFP4:NVIDIA Blackwell 芯片优化的数值格式,用于推理时可实现 2-3 倍吞吐量提升。
推理训练GPU分配:通过平衡推理吞吐量与训练吞吐量计算最优GPU比例的数学模型。
Staleness:异步强化学习中优化器步骤与 rollout 生成之间的时间差,反映样本新鲜度。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | An Early Preview of SWE-1.6 and Research Update |
| 作者 | Cognition |
| 发表日期 | 2026-03-02 |
此摘要卡片由 AI 自动生成