SWE-1.5 介绍:我们的快速代理模型
摘要
SWE-1.5是Cognition推出的面向软件工程的大规模AI模型,具备接近SOTA的编程能力,同时实现业界领先的推理速度。团队采用端到端强化学习,在自研Cascade代理框架上训练,并与Cerebras合作将推理速度提升至950 tok/s。通过模型、推理平台、工具链和用户体验的一体化优化,SWE-1.5证明开发者无需在速度与智能之间做出取舍。
内容框架与概述
文章开篇阐明了SWE-1.5的核心定位:打破AI编程助手"快但弱"或"强但慢"的二元困境。Cognition团队认为,构建高性能AI代理不能仅关注模型本身,而需将代理框架、推理服务、工具链和用户体验视为统一系统进行协同优化。
文章随后深入介绍了训练方法论。团队在自建的GB200 NVL72集群上完成训练,采用端到端强化学习策略,并设计了三重评测机制——传统测试、代码质量评分和智能体端到端测试——确保模型不仅"能通过测试",还能产出高质量代码。为防止奖励函数漏洞,团队引入"reward hardening"流程,由资深工程师主动攻击评测系统以发现缺陷。
在性能优化层面,Cognition与Cerebras深度合作,针对高吞吐场景定制草稿模型和请求调度策略。当模型推理速度提升10倍后,以往可忽略的系统延迟成为新瓶颈,团队因此重写了代码审查、命令执行等核心流程,将单步延迟最多降低2秒。文章最后展望,通过模型、系统、工具的三位一体设计,“速度与智能不再是非此即彼”。
核心概念及解读
Agent-Model深度融合:Cognition不将模型与代理系统分开优化,而是通过Cascade框架实现端到端协同训练,确保模型输出与工具调用、环境交互高度契合。
Reward Hardening(奖励硬化):由资深工程师主动尝试绕过评测机制,发现奖励函数漏洞,避免模型学会"形式合格但实际低质"的捷径,显著降低评测误判率。
Dogfooding驱动迭代:团队将SWE-1.5作为日常开发主力工具进行大量内部实测,以真实开发体验而非单一基准分数指导调优方向。
一体化系统优化:当推理速度大幅提升后,以往被忽视的系统细节(如工具调用延迟)成为新瓶颈,团队因此重构全链路流程,体现"木桶效应"下的系统性思维。
GB200 NVL72训练集群:SWE-1.5是首批在新一代GB200芯片上量产的公开模型,团队需克服早期固件不稳定和生态不完善的挑战,展现了硬件-软件协同创新的基础设施能力。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | Introducing SWE-1.5: Our Fast Agent Model |
| 作者 | Cognition |
| 发表日期 | 未知 |
此摘要卡片由 AI 自动生成