Cognition · 2026-03-02

SWE-1.6 预览版与研究进展

摘要

Cognition.ai 发布了 SWE-1.6 模型的训练进展，该模型基于与 SWE-1.5 相同的预训练模型，推理速度保持 950 tok/s。在 SWE-Bench Pro 基准测试中，SWE-1.6 得分比 SWE-1.5 高出 11%。团队发现强化学习训练引发了模型过度思考和过度自我验证等问题，因此提出 Model UX 这一新研究维度。训练基础设施经过优化后速度提升 6 倍，采用 NVFP4 精度实现 2-3 倍吞吐量提升。团队同时分享了 GPU 分配的数学模型以优化推理与训练的资源配置。

内容框架与概述

文章首先介绍 SWE-1.6 模型的核心性能提升和早期用户测试计划。作者指出模型虽然在基准测试上表现优异，但出现了过度思考等影响用户体验的行为，因此提出 Model UX 这一新研究维度。接着详细阐述了训练系统的工程优化，包括使用 NVFP4 精度、KV 缓存优化、多节点 NVLink 等技术使训练速度提升 6 倍。最后部分建立了一个理论模型，用于计算推理 GPU 与训练 GPU 的最优分配比例，并推导出基于测量吞吐量的staleness表达式。