Cognition · 2026-03-02

SWE-1.6 预览版与研究进展

摘要

Cognition.ai 发布了 SWE-1.6 模型的训练进展,该模型基于与 SWE-1.5 相同的预训练模型,推理速度保持 950 tok/s。在 SWE-Bench Pro 基准测试中,SWE-1.6 得分比 SWE-1.5 高出 11%。团队发现强化学习训练引发了模型过度思考和过度自我验证等问题,因此提出 Model UX 这一新研究维度。训练基础设施经过优化后速度提升 6 倍,采用 NVFP4 精度实现 2-3 倍吞吐量提升。团队同时分享了 GPU 分配的数学模型以优化推理与训练的资源配置。

内容框架与概述

文章首先介绍 SWE-1.6 模型的核心性能提升和早期用户测试计划。作者指出模型虽然在基准测试上表现优异,但出现了过度思考等影响用户体验的行为,因此提出 Model UX 这一新研究维度。接着详细阐述了训练系统的工程优化,包括使用 NVFP4 精度、KV 缓存优化、多节点 NVLink 等技术使训练速度提升 6 倍。最后部分建立了一个理论模型,用于计算推理 GPU 与训练 GPU 的最优分配比例,并推导出基于测量吞吐量的staleness表达式。

核心概念及解读

SWE-1.6:Cognition.ai 开发的下一代软件工程模型,在 SWE-Bench Pro 基准上比前代提升 11%。

Model UX:指模型的用户体验维度,包括过度思考、过度自我验证等行为,当前基准测试未涵盖此维度。

NVFP4:NVIDIA Blackwell 芯片优化的数值格式,用于推理时可实现 2-3 倍吞吐量提升。

推理训练GPU分配:通过平衡推理吞吐量与训练吞吐量计算最优GPU比例的数学模型。

Staleness:异步强化学习中优化器步骤与 rollout 生成之间的时间差,反映样本新鲜度。


原文信息

字段内容
原文An Early Preview of SWE-1.6 and Research Update
作者Cognition
发表日期2026-03-02

此摘要卡片由 AI 自动生成