核心概述
Cursor 团队成员 Lee 和 CEO Michael 系统回顾了从传统编程到 AI 智能体的发展历程,深度介绍了上下文工程和自主编程智能体的产品实践。
视频覆盖智能体工具体系、上下文检索优化、多智能体并行管理等关键技术,强调智能体正让编程变得更易用、强大和自动化,推动软件工程走向更高的自由度与创造性。
Context Engineering & Coding Agents Evolution
Cursor 团队成员 Lee 和 CEO Michael 系统回顾了从传统编程到 AI 智能体的发展历程,深度介绍了上下文工程和自主编程智能体的产品实践。
视频覆盖智能体工具体系、上下文检索优化、多智能体并行管理等关键技术,强调智能体正让编程变得更易用、强大和自动化,推动软件工程走向更高的自由度与创造性。
Lee 回顾了编程工具六十年演变:从 1960 年代的打孔卡和早期终端,到 1970 年代的 Apple II,1980 年代的 GUI 图形界面,再到 1990、2000 年代的专业 IDE 如 Visual Studio 和 Sublime Text。这一阶段编程逐步大众化,但界面和交互始终构成门槛。
随着 AI 技术发展,编程变得前所未有地易用和强大。从文本终端到图形界面、再到 AI 驱动的自动补全工具,这一进化史正在被加速重演。几十年的交互变革,如今几年内便能实现。每次新技术迭代,用户体验和交互界面在提升模型能力的同时,大幅推动更高目标任务的实现。
Tab 最早灵感取自 GitHub Copilot,起初只做预测下一个单词或下一行代码,后来进化到预测鼠标光标的下一步动作。
Tab 每日处理 4 亿次请求,积累大量数据。团队由通用模型转向专为下一步行动预测训练的自定义模型。
通过用户接受或拒绝建议的数据,对模型进行实时强化学习优化。接受的建议会强化,拒绝的建议反馈负面强化,约 30 分钟后模型即可更新用户反馈。团队关注补全速度与质量平衡:超过 200 毫秒影响流畅体验,最新版倾向于建议更少但准确率更高。
随着模型能力增强,Cursor 推出 coding agents。用户可直接与模型交互,让其生成或修改整块代码,而非仅靠补全。系统提供自主权控制,独立设定模型自动化程度。
2023 年团队推出 Composer 功能,实现多文件编辑,提供会话式用户界面,方便管理复杂编程场景。
2024 年添加完全自主编码智能体功能,支持模型工具调用、自助获取上下文信息。不再只是人工提供全部码基路径和语境,而是模型自我检索、构建上下文。
上下文工程是 Prompt Engineering 的升级版本
过去关注如何给模型设计输入,现在更重视怎样提供高质量上下文。团队发现随着上下文窗口变大,模型对信息的回忆和输出质量反而下降。目标是使用尽可能少且高质量的 token 编码单元。
团队优化方式包括自动索引、创建代码库 embedding 嵌入向量,实现语义级检索。例如用户请求"更新顶部导航",模型通过 embedding 可以关联 header.tsx 等具体文件。团队由通用 embedding 模型迁移到自定向训练 embedding,提高检索准确率,并通过 AB 测试不断验证性能。
通过预先离线索引代码,将计算压力提前,实现线上运行时响应更快、更便宜。语义搜索不仅提升用户追问率,还能带来更高的 token 使用量。
团队探索多种 coding CLI,支持脚本化让智能体在各类环境自动操作,如自动生成文档、批量修正代码。
去年团队研发代码逻辑自动检测工具,支持代码审查自动化,6 个月内部测试期间检测出许多被漏掉的漏洞。
智能体具备规划和前置研究能力,模型得以提前验证需求、修正方向,生成代码质量显著提升。
"很多上下文工程创新均首先在用户侧出现,例如计划、记忆、规则等,最终沉淀到官方产品特性中。"
— Cursor Team Insights
信任智能体写代码需保持人类在环。智能体运行命令时会请求用户许可,能设置允许列表自动运行,并支持团队协作限制某些 shell 命令。
最新版加入自定义钩子,例如智能体完成任务后自动触发 shell 脚本,提升工作流自动化程度。
本地并行运行需工具如 git work tree、数据库端口隔离等。探索模型间竞争,让不同能力的智能体相互比拼,使用户选出最佳结果。
智能体能自查代码、跑测试、验证运行结果,甚至开启浏览器检测网页 DOM 和网络请求,反馈页面设计。
以 Cursor 产品和团队经验为例,编码智能体的开发与应用可归结为七大关键步骤:
明确定义问题,系统收集所有相关代码上下文信息。强调最小但高质量的 token 输入,避免模型输入冗余。
设计自动检索、索引和语义搜索流程,融合通用与定制 embedding,持续优化准确率。
框架允许用户自定义模型自主权,系统支持自主规划、分阶段执行和任务管理。
设定人类在环机制,所有关键操作需用户授权。支持自动运行配置和团队协作防护。
通过用户接受或拒绝建议的数据,实施强化学习,模型实时迭代以提升采纳率和用户体验。
系统支持多 agent 并发,允许模型间竞争,横向对比多模型结果,实现复杂协作。
智能体需支持自动测试、调试和自查,能展现完整操作日志、测试流程、调试信息,便于人类开发者快速掌握整体进程。
心智模型:以人为本、场景驱动、工具迭代
开发者既是创新发起者,也是最优实践的沉淀者。各类工作流、计划、记忆最终回归产品迭代,推动编程智能体从简单补全工具迈向高度自主、可控、可共享、可验证的复杂系统。