Cursor Team · 2025-10-30

Composer：用强化学习打造高效前沿模型 · Cursor

摘要

Composer 是 Cursor 推出的面向软件工程的智能代理模型，采用专家混合（MoE）架构并通过强化学习在真实代码库中优化训练。该模型生成速度比同类产品快四倍，能够调用搜索、编辑、终端命令等生产级工具，在内部基准测试 Cursor Bench 中达到行业前沿水准。其设计理念是打造既足够智能又能支持交互式使用的开发助手，让编码体验保持流畅愉快。

内容框架与概述

文章开篇介绍了 Composer 的核心定位：一个为软件工程智能化与速度而生的代理模型。团队从开发 Cursor Tab 补全模型的经验出发，意识到开发者需要兼具智能与交互性的模型，因此在原型 Cheetah 基础上升级打造了 Composer，实现了四倍于同类模型的生成速度。

中段深入阐述了技术架构与训练方法。Composer 基于 MoE 架构支持长上下文处理，通过在多样化开发环境中进行强化学习专项优化软件工程能力。模型可调用文件读写、语义搜索、终端命令等工具，并在训练中自发习得复杂搜索、修复错误、编写单元测试等能力。评测方面，团队构建了由真实代理请求组成的 Cursor Bench 基准，考察正确性与工程实践遵循度。

文章后半部分聚焦基础设施建设。团队基于 PyTorch 和 Ray 构建了支持异步强化学习的定制化训练系统，结合 MXFP8 训练实现了数千张 GPU 的高效扩展。为支持模型在 RL 中调用工具，团队改造了 Background Agents 基础设施，实现了训练环境与生产环境的统一。结尾强调 Cursor 团队自身深度使用 Composer 进行日常开发，验证了其实用价值。

核心概念及解读

专家混合架构（MoE）：Composer 采用的底层模型架构，通过动态激活部分专家网络实现高效推理，支持长上下文的生成与理解，是实现四倍速度提升的关键技术基础。

强化学习优化：模型通过 RL 在真实开发环境中迭代训练，自主学习工具选择、并行处理和响应策略，能够自发习得复杂搜索、错误修复、测试编写等实用能力。

Cursor Bench：团队构建的内部评测基准，由工程师提交的真实代理请求组成，不仅考察代码正确性，还评估对既有抽象与工程实践的遵循程度，确保评测贴近实际开发价值。

MXFP8 训练：采用原生低精度训练方案，结合专家并行和混合分片数据并行，实现低通信开销的大规模 GPU 扩展，同时无需训练后量化即可获得更快推理速度。

训练与生产环境统一：通过改造 Background Agents 基础设施，在云端运行数十万份隔离沙盒环境，使 RL 训练工具调用与生产环境无缝对齐，确保模型能力的实际可用性。

原文信息

字段	内容
原文	Composer：用强化学习打造高效前沿模型 · Cursor
作者	Cursor Team
发表日期	2025-10-29

此摘要卡片由 AI 自动生成

Shreya Chattopadhyay · 2025-11-02

›

Composer：用强化学习打造高效前沿模型 · Cursor

摘要

内容框架与概述

核心概念及解读

原文信息

目录