Composer:用强化学习打造高效前沿模型 · Cursor
摘要
Composer 是 Cursor 推出的面向软件工程的智能代理模型,采用专家混合(MoE)架构并通过强化学习在真实代码库中优化训练。该模型生成速度比同类产品快四倍,能够调用搜索、编辑、终端命令等生产级工具,在内部基准测试 Cursor Bench 中达到行业前沿水准。其设计理念是打造既足够智能又能支持交互式使用的开发助手,让编码体验保持流畅愉快。
内容框架与概述
文章开篇介绍了 Composer 的核心定位:一个为软件工程智能化与速度而生的代理模型。团队从开发 Cursor Tab 补全模型的经验出发,意识到开发者需要兼具智能与交互性的模型,因此在原型 Cheetah 基础上升级打造了 Composer,实现了四倍于同类模型的生成速度。
中段深入阐述了技术架构与训练方法。Composer 基于 MoE 架构支持长上下文处理,通过在多样化开发环境中进行强化学习专项优化软件工程能力。模型可调用文件读写、语义搜索、终端命令等工具,并在训练中自发习得复杂搜索、修复错误、编写单元测试等能力。评测方面,团队构建了由真实代理请求组成的 Cursor Bench 基准,考察正确性与工程实践遵循度。
文章后半部分聚焦基础设施建设。团队基于 PyTorch 和 Ray 构建了支持异步强化学习的定制化训练系统,结合 MXFP8 训练实现了数千张 GPU 的高效扩展。为支持模型在 RL 中调用工具,团队改造了 Background Agents 基础设施,实现了训练环境与生产环境的统一。结尾强调 Cursor 团队自身深度使用 Composer 进行日常开发,验证了其实用价值。
核心概念及解读
专家混合架构(MoE):Composer 采用的底层模型架构,通过动态激活部分专家网络实现高效推理,支持长上下文的生成与理解,是实现四倍速度提升的关键技术基础。
强化学习优化:模型通过 RL 在真实开发环境中迭代训练,自主学习工具选择、并行处理和响应策略,能够自发习得复杂搜索、错误修复、测试编写等实用能力。
Cursor Bench:团队构建的内部评测基准,由工程师提交的真实代理请求组成,不仅考察代码正确性,还评估对既有抽象与工程实践的遵循程度,确保评测贴近实际开发价值。
MXFP8 训练:采用原生低精度训练方案,结合专家并行和混合分片数据并行,实现低通信开销的大规模 GPU 扩展,同时无需训练后量化即可获得更快推理速度。
训练与生产环境统一:通过改造 Background Agents 基础设施,在云端运行数十万份隔离沙盒环境,使 RL 训练工具调用与生产环境无缝对齐,确保模型能力的实际可用性。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | Composer:用强化学习打造高效前沿模型 · Cursor |
| 作者 | Cursor Team |
| 发表日期 | 2025-10-29 |
此摘要卡片由 AI 自动生成