Cursor CEO:超越编程,AI智能体与品味的未来
摘要
Cursor母公司Anysphere的CEO迈克尔·特鲁尔在Y Combinator访谈中,阐述了用更高效直观的方式取代传统编程的愿景。他分析了AI编程的现状与局限,探讨了实现超级AI智能体需突破的上下文窗口、持续学习和多模态等瓶颈,并强调在AI时代人类工程师的品味与逻辑设计能力愈发关键。访谈还涉及团队建设、产品市场契合及AI编码工具的竞争壁垒等话题。
核心概念及解读
规模法则(Scaling Laws):指随着模型参数量、数据量和计算量的增加,AI模型能力呈可预测的持续提升趋势,这是Cursor团队决定投身AI编程赛道的核心认知基础
Vibe Coding:一种不深入阅读和理解代码、仅凭直觉和AI生成结果进行编程的方式,适用于短期原型但不适合需要长期维护的专业项目
品味(Taste):在AI时代工程师不可替代的核心能力,包括视觉审美和逻辑设计两个维度,决定了软件产品最终呈现的品质与用户体验
数据飞轮效应:通过产品分发获取大量用户使用数据,反哺模型训练与产品优化,形成持续增强的正向循环,构成AI编程工具的核心竞争壁垒
上下文窗口:大型语言模型单次能够处理的信息容量限制,其大小、成本和有效性直接制约着AI智能体理解复杂大型代码库的能力
- 标题:Cursor CEO: Going Beyond Code, Superintelligent AI Agents, And Why Taste Still Matters
- 链接:https://www.youtube.com/watch?v=oOylEw3tPQ8
- 频道:Y Combinator
- 发布日期:2025年6月11日
访谈介绍
本次访谈邀请了Anysphere公司(AI编程平台Cursor的开发者)的联合创始人兼CEO迈克尔·特鲁尔。在对话中,迈克尔深入探讨了Cursor的宏大愿景——致力于从根本上革新软件的编写方式,目标是最终用一种更高效、更直观的交互模式取代传统编码。他分享了团队如何从一个AI辅助CAD设计的早期项目,基于对AI“规模法则”的深刻洞察以及对编程领域的热情,战略性地转向开发Cursor的历程。
访谈内容覆盖了AI在当前编程实践中的应用现状、专业开发者面临的挑战,以及未来AI智能体在理解复杂代码库、持续学习和多模态交互方面需要突破的瓶颈。迈克尔强调,在AI日益强大的时代,人类工程师的“品味”和高阶“逻辑设计”能力将变得愈发重要。此外,他还就Cursor在产品市场契合、团队建设、早期招聘中遇到的挑战与决策,以及如何在快速成长的初创企业中保持“黑客精神”分享了宝贵的经验。最后,讨论延伸至AI编码工具的竞争壁垒和AI技术将如何进一步放大个体与团队的创造力。对于关注AI技术如何重塑软件开发行业、初创企业如何在AI浪潮中寻找机会的读者,这份访谈实录提供了来自一线实践者的深入见解。
内容纲要
├── 一、Cursor的愿景与使命
│ ├── 创始人及公司背景介绍
│ ├── 公司增长与估值 ($9 billion 估值, $100 million ARR)
│ ├── 最终目标:用更好的方式取代编程
│ ├── 核心理念:高层次、高效率的软件构建
│ └── 实现路径:持续成为AI编程最佳方式并演进
├── 二、AI编程的现状与未来交互
│ ├── 当前变革的初步迹象 (尤其小型代码库)
│ ├── 专业领域的局限性 (Vibe coding的不可行性)
│ ├── 当前AI在编码中的应用比例 (Cursor中AI编写40%-50%代码)
│ ├── 未来的跨越:从生产力工具到改变“产物”形态
│ ├── 对大型语言模型(LLM)的两种看法
│ │ ├── 作为助手
│ │ └── 作为先进编译器/解释器
│ ├── 产品挑战:精细细节的控制
│ └── 未来界面的探索
│ ├── 更高级别的软件逻辑书面形式
│ └── UI的直接操纵
├── 三、实现超人AI智能体的瓶颈
│ ├── 上下文窗口的挑战 (大小、成本、有效性、数据缺乏)
│ ├── 持续学习的难题 (组织背景、历史尝试等)
│ ├── 长时间跨度任务的执行能力
│ ├── 多模态问题 (运行代码、与输出交互、使用辅助工具)
│ └── 审美能力的提升方式 (通过数据和RL,对持续学习问题的“hack”)
├── 四、AI时代工程师的核心价值
│ ├── 不可替代的技能:“品味”(Taste) - 视觉与逻辑
│ ├── 角色转变:从“人类编译”到“逻辑设计师”
│ └── AI带来的生产力提升影响
│ ├── 专业开发者效率大幅提升
│ ├── 复杂系统(如训练框架、数据库)构建加速
│ ├── AI实验室工程瓶颈缓解
│ └── 次生效应:更多小众软件的出现
├── 五、Cursor的诞生故事
│ ├── 团队起源 (MIT相遇)
│ ├── 创业动机 (2021年)
│ │ ├── GitHub Copilot等实用AI产品的启发
│ │ └── 对“规模法则”(scaling laws)的认知
│ ├── 最初的尝试:AI辅助CAD设计
│ │ ├── 3D自动补全模型
│ │ └── 挑战:几何模拟的复杂性
│ └── 放弃CAD想法的原因
│ ├── 团队热情更偏向编程
│ └── 当时3D领域技术与数据局限
├── 六、公司建设:从转型到产品市场契合
│ ├── 转型编程领域的原因
│ │ ├── 个人兴趣与热情
│ │ ├── 观察到市场进展缓慢
│ │ ├── 对编程未来形态的信念
│ │ └── 遵循“Follow the line”原则 (规模法则)
│ ├── 关键的早期产品决策:构建完整编辑器而非插件
│ │ ├── 对编程未来形态的预判
│ │ └── 从GitHub Copilot开发史中吸取的经验
│ ├── PMF的探索路径
│ │ ├── 前期机械工程方向的探索 (约1年)
│ │ ├── Cursor初代版本的快速发布 (3个月)
│ │ └── 公开迭代与打磨 (约1年)
│ ├── 北极星指标:付费高频用户 (paid power users)
│ └── 开发流程
│ ├── 强调“Dogfooding”
│ ├── 实验性与可用演示驱动
│ └── 警惕“为演示而优化”,关注核心体验
├── 七、团队、文化与招聘
│ ├── 早期招聘策略
│ │ ├── 创始团队长期核心运作
│ │ └── 对前10名员工的极度审慎 (决定未来基调)
│ │ └── 寻找跨学科通才 (如懂产品又懂模型训练)
│ ├── AI时代的工程师评估方式
│ │ ├── 初轮技术筛选仍不使用AI (自动补全除外)
│ │ └── 原因:检验核心技能,避免对无AI工具经验者不公
│ └── 保持“黑客精神”的措施
│ ├── 招聘流程中的项目实践环节
│ └── 鼓励自下而上的实验与探索
├── 八、护城河与未来展望
│ ├── 市场类比
│ │ ├── 90年代末的搜索市场 (产品天花板高)
│ │ └── 2000年代初的消费电子市场 (抓住关键时刻)
│ ├── AI编程工具的护城河
│ │ └── 分发带来的数据飞轮效应 (改进产品与模型)
│ └── 对未来的展望
│ ├── 个人“构建”能力将被极大放大
│ └── 技术将向更多人开放
└── 结语
访谈实录
一、 Cursor的愿景与使命
加里: 欢迎回到新一集的《如何构建未来》。今天,我邀请到了Anysphere公司的联合创始人兼CEO迈克尔·特鲁尔,Anysphere正是我们都熟知并喜爱的AI编程平台Cursor背后的公司。他们最近达到了90亿美元的估值,是有史以来增长最快的初创公司之一,在上线仅20个月后就达到了1亿美元的年度经常性收入(ARR)。迈克尔,感谢你加入我们。
迈克尔: 感谢你的邀请,很高兴来到这里。
加里: 你曾说过Cursor的目标是真正发明一种新型的编程方式,你只需描述你想要什么,它就能被构建出来。能和我谈谈这个吗?
迈克尔: 公司的目标是用一种更好的方式取代编程。我和我的三位联合创始人长期以来都是程序员,这首先是我们的身份。吸引我们编程的是,你可以非常快速地构建事物。然而,要做那些描述起来很简单的事情,编程却需要编辑数百万行有点深奥的正式编程语言,需要做大量的工作才能让那些描述起来简单的东西真正显示在屏幕上。我们认为,在未来5到10年内,有可能发明一种新的、更高级别、更高效的软件构建方式,它仍然归结为定义你希望软件如何工作以及你希望软件如何呈现。因此,我们Cursor的目标就是实现这一点,而我们实现这一目标的路径是,在任何特定时间点,始终成为使用AI编程的最佳方式,然后演进这个过程,你知道,把它从正常的编程演变成看起来非常不同的东西。
加里: 有些人会说,我们今天拥有的就是这样——你大致描述你想要的,然后它就出来了。对此你怎么看?我们已经实现了吗?要达到你真正想要的目标,还需要哪些步骤?
迈克尔: 我们正看到事物真正开始改变的最初迹象。我想你们YC可能走在这方面的前沿,因为我认为在较小的代码库中,由较少的人员团队开发软件时,这种变化感受最为明显。在那里,我们看到人们开始超越代码,达到更高的抽象层次,基本上就是要求智能体和AI为他们完成所有更改。在专业领域,我认为还有一段路要走。我认为那种“Vibe coding”或者说不真正看代码、不理解代码就编程的整个想法,实际上是行不通的。如果你处理的是数百万行代码,有数十甚至数百人在多年时间里共同开发,会产生许多高阶效应(nth order effects)。目前,你还不能真正避免思考代码。我们的主要关注点是帮助专业程序员,帮助那些以此为生的人在这些环境中构建软件。人们越来越多地使用AI进行编码,我们看到平均而言,人们在Cursor中让AI编写了大约40%、50%的代码行。但这仍然是一个需要阅读AI输出的所有内容的过程。因此,作为一款产品,我们需要跨越的一个重要鸿沟是,达到一个我们不再仅仅是一个帮助你查看、阅读、编写、理解代码的生产力工具的阶段,而是“产物”(artifact)本身发生改变的阶段。我认为对于专业开发者来说,这方面还有一段路要走。
加里: 在你看来,你是否将其视为不同的层级?显然,初创公司是从零行代码开始的,所以这非常容易。你现在是否在追踪某个临界点,比如,到了那个点,“Vibe coding”就行不通了,事情就开始变得真实起来?
二、AI编程的现状与未来交互
迈克尔: 如果代码需要长期存在,我们绝对不推荐“Vibe coding”这种方式。我认为,当你是一个两三个人、四个人的初创公司,在不断尝试和摸索方向时,软件开发的一个特点是,代码往往只存在几周时间。现在我们正处于这样一个阶段,AI更多地是作为你的助手。人们使用AI编码的主要方式,要么是将任务委托给AI,说“帮我做这件事,帮我回答这个问题”,要么是让AI在旁边看着,时不时接管键盘,这有点像Tab键自动补全的模式。我认为未来6个月到1年的目标是让这两种方式的实用性都提高一个数量级。有时候,当你只是看着别人编码时,编码过程是极其可预测的,你能预见到接下来10、15、20分钟的工作。所以Tab键自动补全的模式可以走得很远。同样,将任务委托给另一个人的智能体模式也可以走得很远。然后,我认为一旦这些模式开始成熟,并且在专业开发中,有25%到30%的工作可以完全依赖它们端到端完成,而无需真正查看细节时,那么就需要解决所有其他问题,关于如何在现实世界中让这种方式行之有效。
迈克尔: 有一种看待大型语言模型(LLM)的方式是,你像与人、与助手一样与它们交互。另一种看待LLM的方式是,它们是一种先进的编译器或解释器技术。如果我们是一个帮助人类将头脑中的想法转化为屏幕上实际东西的工具,那么赋予人们对最精细细节的控制权将始终是有益的。这是我们面临的产品挑战之一:你应该总是能够将某个东西移动几个像素,你应该总是能够编辑逻辑中非常具体的内容。我认为一个有用的用户界面(UI)始终是,将软件的逻辑写下来,然后你可以指向逻辑的各个部分并实际编辑它们。但是,如果我们能达到一个你不需要那么关注代码的境界,那么软件逻辑的书面版本就必须变得更高级。所以,是的,我们很兴奋地期待,在智能体能够工作之后,在Tab键自动补全模式非常成熟之后,AI是否真的会改变编写和看待编程语言的意义。
加里: 这是否与上下文窗口有关?你知道,这似乎很合理,一旦你超过大约一百万到两百万token,即使是在我感觉最近100天内我们才得到可用的两百万token长度。这是否自然而然地成为其中一个瓶颈,一旦你的代码库达到一定规模,你就必须使用RAG(检索增强生成),它的上下文不完整,然后它就无法做到人类程序员能做到的事情?
三、实现超人AI智能体的瓶颈
迈克尔: 是的,我认为智能体要达到人类水平存在许多瓶颈。其中之一是上下文窗口大小的问题,确实是一个问题。如果你有1000万行代码,那可能就是大约1亿个token。拥有一个能够实际处理这些信息的模型,使其具有成本效益,并且不仅仅是物理上能将这些信息纳入其权重,还要能有效地关注该上下文窗口,这都很棘手。我认为这是该领域需要努力解决的问题。而且这不仅仅是代码库的问题,它也是一个持续学习的问题,比如了解组织的背景、过去尝试过的事情、你的同事是谁等等。让模型真正持续学习某些东西,我认为这仍然是该领域没有很好解决方案的问题。人们一直猜测,或者说很多人一直猜测,只要把上下文窗口做得无限大,问题就能解决。但我认为,训练这些模型的机构缺乏足够好的长上下文数据。所以我认为这会很棘手。但持续学习和长上下文绝对是达到超人水平的瓶颈。这有点相关,但能够在非常长的时间跨度内执行任务并持续取得进展。互联网上流传着一张非常棒的图表,显示了过去一两年AI在任务上取得进展的最长时间的变化,它从几秒钟增加到——我想我不知道这些数字具体是怎么得来的,但我认为有人声称最新的某些模型能达到一小时。然后是不同模态的问题。要成为一名软件工程师,你通常需要运行代码,然后与输出进行交互。如果你不需要这样做,那你将是超乎寻常的,那太疯狂了。所以“使用计算机”对于代码的未来将非常重要——能够运行代码,能够查看DataDog日志并与人类使用的那些工具进行交互。在使编码智能体达到超人水平的任务中,我们将不得不面对许多已知的难题,以及许多未知的难题。然后,我想指出一点,回顾一下上一个回答,即使你有一个可以与之交谈、在编码方面达到人类水平甚至更快更好、超越人类、拥有整个工程部门技能的东西,我认为仅仅通过一个文本框来请求更改软件的用户界面是不精确的。所以即使在极限情况下,如果你关心人类能够控制屏幕上显示的内容,你也需要一种不同的交互方式。一种潜在的UI是编程语言向更高级别的演变,另一种可能是直接操纵UI,比如能够在屏幕上指点东西说“改变这个”,或者自己实际调整数值。
加里: 是的,我的意思是,这似乎包含了很多刚刚萌芽的东西,对吧?比如,模型似乎对审美没有非常清晰的概念。所以,这个达到人类水平的设计师可能需要,他们需要能够真正看到,是的。
迈克尔: 看到它们在审美方面有所改进一直很有趣,我认为这实际上是一个关于我们如何巧妙解决这些持续学习问题的有趣的具体例子。但我们的理解是,你教这些模型在像审美这样的事情上做得更好的方式,与你教人类的方式不同。它基本上是通过收集大量数据,对它们进行强化学习(RL)来实现的。这就是你教它完成那个任务的方式。这是一个足够多的人关心的问题,所以你可以支付成本来完成所有这些工作,你可以进行训练,并将其融入到基础模型中。这有点像是对持续学习问题的一种“取巧的解决方案”(hack)。
加里: 鉴于每个人都在努力构建这个未来,而你无疑是走在前沿的领导者,你认为在未来,成为一名软件工程师,哪些部分将是不可替代的,或者说是最核心的要素?
四、AI时代工程师的核心价值
迈克尔: 我们认为有一件事是不可替代的,那就是品味(Taste)。也就是定义你到底想构建什么。人们通常在思考软件的视觉方面时会考虑到这一点,但我认为软件的非视觉方面,关于逻辑如何运作,也存在品味成分。目前,编程行为将你弄清楚你究竟希望事物如何运作(你正在用编写的逻辑真正定义什么产品)以及实现细节的高层次品味(如何将其映射到物理计算机上)捆绑在一起。但是现在,很多编程工作有点像你在进行“人类编译”,你大致知道你想要什么,你可以告诉另一个人,但你必须非常详细地向计算机解释,因为你用来向计算机描述事物的语言,对于正常的编程来说,就是for循环、if语句、变量和方法,你真的必须把它详细说明。所以我认为,越来越多那样的人类编译步骤将会消失,计算机将能够填补空白,填补细节。但是,由于我们是一个帮助你实现事物、帮助你构建东西的工具,那种对于你想要构建的东西什么是真正有用的品味,我认为永远不会消失。
加里: 这很有道理。有句话说,优秀的人会帮助你达到这个标准,但真正伟大、真正大师级的人,他们会达到一个你甚至看不到的标准。
迈克尔: 是的。而这需要品味。
加里: 你曾称之为人们需要成为“逻辑设计师”。随着这项技术越来越成熟,随着我们越来越接近一个编程可以被自动化并被更好的软件构建方式取代的世界,这意味着什么?就意图驱动编程而言。
迈克尔: 我认为这有很多含义。其一是,专业开发者的生产力将得到极大的提升。拥有上千人的软件项目和上百人的软件项目,以及真正专业的软件项目的进展速度之慢,简直令人难以置信。这很大程度上是因为现有逻辑的重负让你不堪重负。当你在一个新的代码库中时,你可以从头开始,非常快速地完成事情。当你更改某些东西时,不会有一堆其他东西因此损坏而需要修复。我认为它的一个影响是,下一个分布式训练框架,或者下一个数据库,或者下一个视觉设计工具,构建起来会快得多。下一个AI模型也是如此,如果你和实验室的人聊,他们很大程度上受限于工程能力。我认为所有这些都会得到极大的改善。我认为,第二个次生效应是,将会出现更多的小众软件。
迈克尔: 我最早的一份工作其实是在一家生物技术公司。
加里: 噢。
五、Cursor的诞生故事
迈克尔: 这家公司由湿实验室科学家组成,他们正在开发治疗疾病的药物。我是第一个被雇佣的软件工程师。他们正在产生大量的化学物质,然后将它们进行生物实验,之后他们需要一个读数来判断哪些化学物质值得进一步研究。他们为此需要大量的内部软件开发。令人惊讶的是,一方面,市面上的现有工具非常糟糕;另一方面,这家软件并非其核心竞争力的公司,竟然不得不去做雇佣真正的软件工程团队、培训他们、并让他们进行内部产品开发这样复杂费力的事情。对于像那样的公司,未来将会有更多的选择。数字空间的物理特性已经非常棒了,但我认为未来这还会被提升好几个档次。你希望在计算机上发生的事情,之后就能轻易发生。
加里: 转换一下话题,我想听听Cursor早期的故事。你在麻省理工学院(MIT)遇到了你的联合创始人——Swale、Arvid和Aman。这家公司始于2022年。是什么把你们吸引到一起的?你是什么时候意识到这个团队能够共同构建一些真正宏伟的目标的?
迈克尔: 我认为我们当时有很多年轻人的天真,可能在当时看来是不合理的。所以从一开始,我们就非常有野心。Cursor实际上源于我们四个人的一次雄心勃勃的想法练习。我们都在很小的时候就接触了编程,然后我们最早的一些工程项目实际上与AI有关。我们中有一个人致力于提高机器人强化学习的数据效率,也就是快速教会机器人学习新任务。那是我们早期的AI项目之一。我们中另一个人则致力于构建一个Google的竞争对手,使用神经网络来尝试快速构建一个出色的网络搜索引擎。其他人则在AI领域做学术研究。但在2021年有两个时刻让我们对创办一家专注于AI的公司感到非常兴奋。其中之一是使用了第一批真正以AI为核心的实用AI产品,老实说,GitHub Copilot是我们深切感受到现在可以用AI做出非常有用东西的时刻,我们不应该去实验室研究这些东西,你知道,在学术实验室里,而是时候让这些东西走向真实世界了。另一件让我们非常兴奋的事情是,看到OpenAI和其他地方发布的研究表明,存在一些非常可预测的自然法则,显示如果你扩大数据规模和投入到这些模型中的计算量,它们就会变得越来越好。所以这意味着即使我们想不出如何让AI变得更好的新点子,也还有几个数量级的提升空间可以挖掘。从一开始,我们就想选择一个知识工作的领域,然后在AI变得更加成熟时,研究该知识工作会变成什么样子。我们对构建一个服务于该知识工作领域产品的公司形态非常感兴趣,因为这能让你做几件事。第一,随着底层技术越来越成熟,你可以演进做那件事的形式。第二,即使在当时,也很清楚,你可能需要的不仅仅是扩大语言模型的规模,你知道,要达到GPT-N的水平。而继续在底层机器学习上取得进展的一种方式是,获取产品数据,了解人们喜欢哪些建议,不喜欢哪些建议,哪些是AI仍然无法真正触及的人类工作的难点。你可以在知识工作发生的“玻璃窗”之后获得这些。所以最初,我们着手为我们其实不太了解的一个知识工作领域做这件事,那就是机械工程。我们为一个计算机辅助设计(CAD)的Copilot工作。
加里: 噢。
六、公司建设:从转型到产品市场契合
迈克尔: 所以我们当时在训练3D自动补全模型,帮助那些在SolidWorks或Fusion 360等软件中进行零件3D建模的人,试图预测他们接下来要对几何形状进行的更改。这是一个有趣的问题,学术界研究过,DeepMind其实也做过一些研究。这些本身并不是大型语言模型,你可以完全用3D方式来做,或者你可以——我们曾研究过一段时间的一个方向是——把它变成一个语言问题,你把某人在CAD系统中做的步骤,有点像把它们变成方法调用。如果他们画一个圆,你就把它变成一个方法调用,它就像一个方法调用列表,不完全是编程,但看起来有点像。问题是,如果你要完全基于文本来做,你是在要求模型做一件非常棘手的事情,不仅要预测用户接下来要做什么,还要在其“心眼”中模拟几何形状。因为CAD内核,也就是这些CAD应用程序底层的软件,相当复杂,仅仅从用户采取的一系列操作来看,很难凭空想象出最终的样子。这非常棘手。但我们为此工作了一段时间。那里有大量的数据工作要做,大量的数据抓取,开放互联网上存在CAD数据,我们需要这些数据来让模型越来越好。然后我们把这个放下了,有几个原因。一个是我们对机械工程的热情远不如对编程那么高,我们都是程序员。另一个原因是,我认为当时的技术对于3D来说还没有准备好,预训练模型在这方面做得不是很好,数据也不多,互联网上CAD模型的数据量比代码少好几个数量级。所以在那个领域制作一个有用的模型很困难,或者说在当时很困难。
加里: 你们最终有没有去和那些使用CAD的人或者机械师之类的人坐下来交流?
迈克尔: 我们做了大量的用户访谈。我认为我们本可以做得更好。我想,也许是出于年轻人的天真,我们当时是以小时为单位来计算任务,日复一日,周复一周地工作。回顾我们花在那上面的时间,我认为如果一开始就去一家雇佣机械工程师的公司工作三个星期,去卧底,更好地了解那种整体感觉,就像去找一份绘图员的工作,那样会非常有价值。用那种经历来替代数百次用户访谈中的一部分,我想会更好。
加里: 我猜想与此同时,你们也开始训练自己的模型来做这件事,你们使用了强化学习(RL),那非常有用,并且还学习了如何启动大型集群来实际训练这些模型。
迈克尔: 是的,在那段充满“假启动”(false starts)的时期,我们当时并不知道,但我们做的一些事情最终对我们很有用。我们做了很多行为克隆(behavior cloning),强化学习(RL)做得少一些,但你基本上是在观察人类做的好的例子,然后训练AI去做那些事情。但是,是的,训练规模在数百亿参数级别的大型语言模型,在当时并不是很多人在做的事情。尽管我们当时开发的产品和模型的最终成果并不是那么有用,但它是一次大规模训练模型和大规模推理的绝佳演练。无论是在当时,还是老实说现在,训练超过100亿参数规模的大型语言模型或机器学习模型的人都不多。所以基础设施的状态非常早期。我们做的事情像是fork了Megatron LM或微软的Deep Speed,然后把内部构件拆出来,再部署用于训练。即使在推理方面也是如此,在那期间,我们有几项服务是大规模运行的。现在在Cursor中,我们自己推理的日均模型调用量超过5亿次。过去进行推理和训练的一些经验,对Cursor的体验来说无疑是非常有价值的。
加里: 其中一件事情,既非常勇敢,也极具先见之明,就是你们停下来思考,说“实际上我们对CAD了解不够,我们需要做点别的”。从训练CAD模型,认识到规模法则(scaling laws)成立,这是一个我们可以深入的领域,到你们意识到实际上需要做别的事情,这是一个直接的转变吗?是什么促使你们真正转向今天的产品?
迈克尔: 这不是一条直线。我的意思是,作为程序员,受到像Copilot这样的产品以及早期Codex论文的启发,我记得当时为了向投资者证明他们应该投资我们疯狂的CAD想法,我们做的一件事是粗略估算了第一个编码模型Codex的训练成本。根据我们的计算,我记得它只花费了大约9万或10万美元。这在当时让投资者非常惊讶,并在一定程度上帮助我们获得了足够的资金来推进CAD的想法,因为你需要立即开始训练。所以我们一直了解编程,一直对此感到兴奋,一直对AI将如何改变编程感到兴奋。我们对于进入那个领域并开展工作有点顾虑,因为已经有很多人在做了。我们认为Copilot非常棒,而且当时也有数十家其他公司在做类似的事情。当我们决定放弃CAD时——这在某种程度上是一个独立的原因,即科学技术尚未成熟,我们对那个领域也不太感兴趣——是我们的个人兴趣把我们拉回了编程领域。而给我们信心继续下去的是,第一,看到其他人在这九个月左右的时间里取得的进展,感觉比它本可以达到的速度要慢一些。第二,就是坐下来思考,如果我们真正坚持我们的信念,五年后所有的编程都将通过这些模型进行,编程行为将彻底改变,你需要进行很多产品层面和模型层面的飞跃才能达到那个目标,而且天花板非常非常高。而当时该领域的现有参与者似乎并没有瞄准一种完全不同的编程方式,他们似乎没有那样的雄心,也没有真正准备好去实现它。第一次的经验教会我们,创办一家公司很难,所以你最好还是做你真正热爱的事情。所以,是的,我们开始致力于编程的未来。
加里: 这听起来更具先见之明,因为萨姆·奥尔特曼大约一年前坐在这个位置上说过,如果你押注模型不会变得更聪明,那是不行的,你应该总是押注模型会变得更聪明得多。12、18、24个月后,这一点变得越来越正确。而听起来你早在那之前整整12个月就已经下了这个赌注。
迈克尔: 是的,我们当时有一个说法,叫做“追随那条线”(follow the line),你总是想追随那条线,并为那条线将达到的位置做规划。我的意思是,这有点像回归到规模法则,就是这些东西会变得越来越好,越来越好。
加里: 经典的彼得·蒂尔主义是,“你相信什么别人都不相信的东西?”而你相信这个,而且你是如此正确,以至于这让你能够真正到达“冰球将要到达的地方”(where the puck was going to be)。
迈克尔: 是的,我想这是有帮助的事情之一。现在显然它变得更流行了,但在当时,你知道,2022年是疯狂且关键的一年。年初的时候,没人真正谈论AI。我的意思是,GPT-3是一年前的事,Copilot也发生了,Copilot在2021年是beta版,然后在2022年可能是正式版。然后它开始流行起来。我们仍然记得所有那些发布,比如InstructGPT,它让GPT-3变得更好了一点,它是在指令上进行微调。然后是夏天的DALL-E,我记得那是一个让很多不关注这个领域的人开始更多关注它的深刻时刻。但之后是PaLM和Stable Diffusion,然后你开始接触到RLHF(基于人类反馈的强化学习),你开始接触到3.5版本,这些模型在训练成本没有大幅增加的情况下变得好得多,这是一个有趣的发展。
加里: 据传,从GPT-3(它已经存在了一段时间,并没有给一些人留下深刻印象,但肯定不是像ChatGPT那样的突破性时刻)到ChatGPT,训练成本只增加了大约1%?
迈克尔: 哦我的天,是的,这是通过在指令上进行微调,RLHF,还有一些其他细节实现的。
加里: 你还记得吗?有没有一些特定的功能或产品选择,是你们因为知道模型不仅会变得更聪明一点,而是会变得非常聪明而做出的?这些改变了特定的产品或路线图,并最终让你们胜出?因为你提到,当然,当时可能有大约十几家其他相当优秀的公司也在这个领域。
迈克尔: 我们早期做出的一个非显而易见的产品决策,源于对一个更激进未来的兴奋,那就是不开发扩展程序,而是构建一个编辑器。这在当时对人们来说并不明显。是的,这源于一种想法,即所有编程都将通过这些模型进行,未来它会看起来非常不同,你需要一个控制界面。这也部分源于我们知道的一些有趣的轶事。我们对构建GitHub Copilot第一个版本的内部情况有所了解。据我所知,整个构建GitHub Copilot的故事——我没有第一手资料,所以一些细节可能不准确——非常有趣。它始于一个非常“解决方案寻找问题”的初衷,即有兴趣将GPT-3应用于编码人员并使其变得有用。我认为这来自领导层,来自当时的GitHub CEO,他只是说我们需要做这件事,然后他派了一个攻坚小组去解决。
加里: 当时是马特·弗里德曼(Matt Friedman)吗?
迈克尔: 是的,据我所知是来自马特。我想他们花了将近一年的时间在沙漠中徘徊,尝试不同的产品想法。当然,这些人对AI的未来非常兴奋,他们立刻想到,我们能不能直接自动化PR(Pull Request)?这有点超前了。他们为此工作了一段时间,然后断定这是不可能的。他们尝试了所有其他古怪的产品想法,直到最终找到了自动补全这个简单的东西。但即使在他们让自动补全工作起来之后,他们也需要在编辑器层面进行更改,他们无法完全将其作为扩展程序来实现。他们不得不去修改VS Code的主线代码,并暴露不同的编辑器API,才能显示出那种“幽灵文本”(ghost text)。据我所知,如果仅仅为了实现幽灵文本自动补全这样简单的功能就需要修改编辑器,这在组织上其实是相当困难的。我们知道我们将来会需要做很多这样的事情。所以这并不明显,我们为此受到了很多批评。我们最初实际上是从头开始构建自己的编辑器,当然也使用了大量开源技术,但并没有基于VS Code,有点像浏览器基于Chromium那样。我们更像是从头开始构建浏览器的所有内部渲染引擎。我们以那种方式发布了产品,然后我们转向了基于VS Code。但编辑器这件事在当时并不明显。
加里: Cursor发布了,你们做出了一系列后来被证明是正确的决定。你是什么时候知道它会成功的?
迈克尔: 这花了一点时间。如果你还记得,最初大约有一年的时间是在荒野中摸索,你知道,致力于Cursor的前身,也就是机械工程方面的事情。然后,Cursor的初始开发周期相当短,之后我们向公众发布了第一个版本。我想,从开始写代码到第一个公开测试版发布,大概是3个月。但之后,又有一年的时间在非常小的范围内公开迭代,那时我们还没有抓住成功的关键。它在增长,但是,你知道,数字很小。在那时调整产品,使其所有细节都恰到好处,可能花了一年时间。直到Cursor发布了9个月到一年,致力于底层产品,建立团队,不仅仅是产品方面,也开始获得支持Cursor的定制模型的最初版本,为Cursor底层提供动力,事情才开始顺利起来。然后,增长开始加速。从那以后,是的,我们有点像骑虎难下。如果我们想成功,未来还有很多事情需要继续执行。我认为我们和其他并行领域的许多公司面临的挑战之一是,我们建立公司的速度需要非常快。我认为关于“员工人数年增长率不超过50%”之类的经验法则,这些铁律,是的,都必须被打破。
加里: 我认为这很有趣。有没有一些像“北极星指标”或者你和你的联合创始人一直在监控的东西,来判断这是否有效?是周环比留存率还是打开率?这如何影响你们在特定一周的工作内容?
迈克尔: 我们关注所有常规指标,比如留存率。我们关注的主要活跃度指标,或者说我们关注的主要顶层指标是收入,以及付费高频用户(paid power users),衡量标准是你是否在一周七天中有四到五天使用AI。这是我们试图提升的数字。
加里: 为什么是付费用户?
迈克尔: 嗯,我认为我们是一个服务专业人士的工具,而且我认为提供这个工具是有实际成本的。所以我们关心的是用户能否升级到付费层级,那才是可持续的。付费高频用户,这就是我们关注的,不是日活跃用户(DAU)、月活跃用户(MAU)之类的,而是你是否每天都在工作中用它。这就是我们试图提升的。
加里: 那么,一旦确定了这个指标,你们是否从这个指标反向推导?比如,我们知道我们想要增长的用户群体,然后他们想要什么,或者什么会阻止人们成为那样的用户?
迈克尔: 我认为在很多领域,“为自己开发”是行不通的。但对我们来说,它确实有效,而且我认为这实际上起到了澄清作用。因为在构建AI产品时,一个诱人的误区是为演示而优化。我们非常担心为演示而优化,因为对于AI来说,很容易选取几个例子,制作一个视频,看起来你拥有革命性的产品。然后我认为,从那个看起来很棒的演示版本到一个有用的AI产品之间,还有很长的路要走。
迈克尔: 一个有用的AI产品意味着要调整好速度、可靠性、智能性以及产品体验等方面。对我们来说,我们真正采取行动的主要方式就是,我们重新加载编辑器。我们早期的产品开发过程非常实验性,非常注重我们理解中苹果公司的做法,即非常注重内部试用(dogfooding)和可用的演示版本,也就是我们可以在编辑器内部立即开始使用的东西。然后我们会查看这些指标,以确保我们周复一周、月复一月地走在正确的道路上。
加里: 是的,你之前说过,有时候你必须打破关于招聘的那些铁律。你是什么时候决定打破它的?我的意思是,在达到某个收入目标之前,是不是只有联合创始人和几个人?你是如何考虑踩油门的?你是先轻轻试探,一旦明确达到目标后,就全力以赴吗?
七、团队、文化与招聘
迈克尔: 在很长一段时间里都只有联合创始人。然后是联合创始人和几个人,直到事情真正理顺并开始起飞。
加里: 最初招聘的一些人是谁?我的意思是,我猜是更多的工程师,但是你知道……
迈克尔: 我们为最初的招聘费尽了心思。我认为,如果你想在几年的时间尺度上快速发展,那么在六个月的时间尺度上放慢速度实际上是非常有帮助的。因为如果你真的把最初进入公司的10个人选对了,他们未来既能加速你的发展——因为当第N个考虑与你共事的人进来并与团队相处时,他们会被人才密度震惊,并非常兴奋地想在那里工作——他们能帮助你未来更快发展的另一个原因是,如果有人进来却不太合适,这些人会像免疫系统一样抵制这种情况,他们会成为保持高标准的守护者。所以我们一开始招聘非常非常非常慢。我们能够做到这一点,部分原因也是因为我们有一个庞大的创始团队,而且所有联合创始人都懂技术。但是,是的,我们招到的人都非常出色,是公司今天的核心力量,他们是跨越不同学科的人才。我们这家公司需要在基础模型实验室和普通软件公司之间找到一个定位,模型和产品必须在同一个屋檐下协同工作。所以我们拥有一些非常棒的人,他们既有产品思维、商业头脑,又实际训练过大规模模型。
加里: 所以“通才型博学之士”(generalist polymaths)在最初的10人阶段真的非常棒。
迈克尔: 是的,并且能够快速构建东西,是的,并快速发布生产代码。
加里: 这些天,我的意思是,每个人都在努力弄清楚如何应对这个问题,但是,你知道,仅仅因为AI工具如此出色,有时甚至更难弄清楚如何评估优秀的工程师。随着你们自己的产品变得越来越普遍,这一点对你们来说是否随着时间的推移而改变了?你们是选择那些非常擅长使用AI工具的人,还是,你知道,真的只是坚持经典,你知道,任何人都可以学会如何使用AI工具?
迈克尔: 对于面试,我们实际上仍然在不允许应聘者使用AI(除了自动补全)的情况下进行初轮技术筛选。在不使用AI的情况下编程,仍然是一个非常好的、有时间限制的技能和智力测试,以及你总是希望团队中的程序员拥有的那些东西。但另一个原因是,我们雇佣了很多优秀的程序员,他们实际上没有使用AI工具的经验,我们不想不公平地让他们处于不利地位,因为这些工具非常有用。所以我们更愿意雇佣那些人,然后在工作中教他们使用这些东西,并从他们第一次使用工具时的初学者心态中挖掘产品见解。
加里: Cursor现在价值90亿美元,你们如何保持团队规模扩大时的“黑客精神”?你现在还写代码吗?
迈克尔: 我还写。这是我们经常思考的问题,因为我认为未来的Cursor必须与今天的Cursor有很大不同。
迈克尔: 首先,我认为你可以通过招聘合适的人来做到这一点。我们招聘流程的最后一步是为期两天的现场考察,你过来和我们一起做一个项目。这是在初步的技术筛选之后,你在办公室里,有点像团队的一员,和我们一起吃饭,一起做项目,最后演示成果,然后我们会问你问题。这能考察你的精力、热情以及对问题领域的激情。通常情况下,如果你只是把这看作一份工作,并且同时申请很多家科技公司,你可能不太愿意这样做。所以我认为,一个重要的方法是通过招聘流程找到充满热情的人。有些大型项目需要很多人之间的协调,需要自上而下的统一。但我认为我们总是希望成为一个也进行大量自下而上实验的地方。所以我们非常努力地鼓励这一点,既鼓励人们在业余时间这样做,也明确地将工程师团队从公司其他部门分出来,给他们充分的自主权去尝试他们想做的事情。
加里: 我认为所有初创公司,也许现在所有的企业,甚至都在努力弄清楚,面对世界上一些最令人印象深刻和不可思议的模型,哪些护城河才是真正持久和有用的。你对此有何看法?
八、护城河与未来展望
迈克尔: 嗯,我认为我们所处的市场以及其他公司所处的市场,与你过去看到的那些实际上并非企业软件市场的市场相似。我认为很多企业软件市场的特点是,产品能提供的良好核心价值的天花板不高,而且存在很多锁定效应。而我们所处的市场有点像90年代末的搜索市场,产品的天花板非常高,搜索在很长一段时间内都可以变得更好。你知道,对我们来说,最终目标是用一种更好的方式取代编程,并自动化编程,我认为在这方面还有很长很长的路要走。搜索市场的一个特点,我认为也是我们市场的特点,就是分发(distribution)对于改进产品非常有帮助。所以如果你有很多人使用你的产品,你就有了一个规模化的业务,你就能了解产品在哪些地方做得不好,在哪些地方做得好。在搜索领域,这意味着观察人们点击了什么,从哪些结果中跳出,什么是好的搜索结果,什么是坏的搜索结果,这些信息会反馈到研发中,帮助他们做出更好的搜索引擎。对我们来说,这意味着观察人们在哪些地方接受了建议,在哪些地方拒绝了建议,在那些他们接受了建议但后来又修正了的地方,到底发生了什么,我们如何能做得更好。我认为这将是未来改进产品和底层模型的一个非常非常重要的驱动力。我认为另一个可以借鉴的市场是2000年代初的消费电子市场。当时的关键是抓住iPod时刻,然后是iPhone时刻。我认为ChatGPT时刻有点像我们这个时代的iPod或iPhone时刻。如果你比其他人更快地推动前沿,你就能获得巨大的收益。我认为在我们这个领域还有几次这样的机会。所以这很难做到,但我们非常专注于努力成为最快冲向那些机会的人。
加里: 现在是2025年,我觉得我们甚至还处于这个智能时代的开端阶段。这是一场革命,你个人目前最兴奋的是什么?
迈克尔: 我认为这将是一个你的构建能力将被极大地放大的十年,无论是对于那些以此为生、以此为业的人,还是对于更多的人来说,它都将变得触手可及。
加里: 真是一个激动人心的时代。感谢你今天加入我。
迈克尔: 谢谢你,感谢你的邀请。
要点回顾
一、 Cursor的愿景与使命
- 创始人及公司背景:Michael Truell是Anysphere(Cursor背后的公司)的联合创始人兼CEO。
- 公司增长:在推出后仅20个月,公司估值达到$9 billion,年度经常性收入(ARR)达到$100 million。
- 最终目标:用一种更好的方式取代编程。
- 核心理念:创造一种更高层次、更高效的软件构建方式,用户只需定义软件如何工作和呈现。
- 实现路径:在任何特定时间点,始终成为使用AI编程的最佳方式,并不断演进这个过程,使其最终脱离传统编程。
二、AI编程的现状与未来交互
- 当前状态:变革的初步迹象已经出现,尤其是在较小的代码库中,人们开始上升到更高的抽象层次。
- 专业领域的局限:“Vibe coding”(不仔细看代码就编程)在数百万行代码的大型项目中行不通,因为存在许多高阶效应(nth order effects)。
- 当前用例:在Cursor中,AI平均编写了40%到50%的代码行,但开发者仍需阅读AI生成的所有内容。
- 未来的跨越:产品需要从一个生产力工具,转变为一个能改变“产物”(artifact)本身形态的工具。
- 对大型语言模型(LLM)的两种看法:
- 视其为像人一样的助手。
- 视其为一种先进的编译器或解释器技术。
- 产品挑战:需要让用户能够控制最精细的细节,比如“把某个东西移动几个像素”。
- 未来界面:
- 软件逻辑的书面形式将需要变得更高级。
- UI的潜在演进方向包括:更高级别的编程语言,或直接操纵UI(例如在屏幕上指点并修改)。
三、实现超人AI智能体的瓶颈
- 上下文窗口:这是一个瓶颈,例如1000万行代码可能对应1亿个token。挑战在于成本、模型能否有效关注上下文,以及缺乏优质的长上下文训练数据。
- 持续学习:这是该领域尚未有很好解决方案的问题,模型需要学习组织背景、过去的尝试和同事信息。
- 长时间跨度任务:AI在长时间跨度内持续推进任务并取得进展是一个挑战。目前模型能持续工作的时间已从几秒提升到有声称达到一小时的水平。
- 多模态问题:软件工程师需要运行代码并与输出交互。“使用计算机”的能力对未来的编程至关重要,例如运行代码、查看DataDog日志等。
- 审美能力:模型在审美方面有所提升,但这被认为是通过收集数据和强化学习(RL)实现的,是对持续学习问题的一种“hack”(取巧的解决方案)。
四、AI时代工程师的核心价值
- 不可替代的技能:品味(Taste)。这不仅包括视觉方面,也包括非视觉部分的逻辑设计。
- 角色转变:当前的编程工作捆绑了三件事:构思、实现品味和“人类编译”(即将想法详细地解释给计算机)。未来,“人类编译”的步骤将消失,人们将更多地成为“逻辑设计师”(logic designers)。
- 生产力提升的影响:
- 专业开发者的生产力将大幅提升,尤其是在大型项目中。
- 构建下一个分布式训练框架或数据库等将变得快得多。
- AI实验室的工程能力瓶颈将得到极大缓解。
- 次生效应:将会出现更多小众(niche)软件,例如生物科技公司等非软件核心业务的公司将能更容易地开发内部工具。
五、Cursor的诞生故事
- 团队起源:四位联合创始人(Michael, Swale, Arvid, Aman)在麻省理工学院(MIT)相识。
- 创业动机 (2021年):
- GitHub Copilot等实用AI产品的出现,让他们觉得AI是时候进入真实世界了。
- OpenAI等机构的研究显示了可预测的“规模法则”(scaling laws),即增加数据和计算量能稳定提升模型性能。
- 最初的尝试:为计算机辅助设计(CAD)开发一个Copilot,研究3D自动补全模型。
- 方法:训练3D自动补全模型,或将CAD操作步骤转化为类似语言的方法调用列表。
- 挑战:模型不仅要预测用户下一步操作,还需要在其“心眼”中模拟几何形状。
- 放弃CAD想法的原因:
- 团队对机械工程的热情远不如对编程。
- 当时3D领域的科学技术尚未成熟,预训练模型效果不佳,且数据量比代码少几个数量级。
六、公司建设:从转型到产品市场契合
- 转型到编程领域:
- 团队始终对编程充满热情,但因竞争激烈(已有Copilot和数十家公司)而有所犹豫。
- 他们观察到当时市场上其他参与者的进展比预想的要慢。
- 核心信念:五年内,所有编程工作都将通过这些模型进行,而现有参与者并未致力于创造一种完全不同的编程方式。
- 遵循的原则:“Follow the line”,即始终根据规模法则的趋势进行规划。
- 关键的早期产品决策:构建一个完整的编辑器,而不是一个扩展插件。
- 原因:相信编程将发生根本性改变,需要一个新的控制界面。从Copilot的开发史中得知,即使是实现简单的“幽灵文本”,也需要在编辑器层面(VS Code)进行修改,这在组织上很困难。
- 找到产品市场契合(PMF)的路径:
- 在转型前,团队在机械工程方向上探索了大约一年。
- Cursor的第一个公开测试版在开发3个月后发布。
- 之后,又花了大约一年时间在小范围内公开迭代,直到产品发布9个月到1年左右,增长才开始起飞。
- 北极星指标:付费高频用户(paid power users),定义为“每周七天中有四到五天使用AI”。
- 开发流程:
- 严重依赖“Dogfooding”(内部使用自己的产品),为自己开发。
- 过程非常实验性,专注于可立即在内部使用的演示版本。
- 警惕“为演示而优化”,而是专注于速度、可靠性和完整的产品体验。
七、团队、文化与招聘
- 招聘策略:
- 初期很长一段时间只有联合创始人。之后在招聘头10名员工时极为慎重,因为他们决定了公司未来的速度和文化基调。
- 早期招聘非常非常慢,寻找能够跨学科的“通才型博学之士”(generalist polymaths),例如既懂产品又实际训练过大模型的人。
- AI时代的工程师评估:
- 在初轮技术筛选中,仍然要求候选人在不使用AI(自动补全除外)的情况下编程。
- 原因:这仍然是检验技能和才智的有效方式,并且避免对尚未使用AI工具的优秀程序员造成不公。
- 保持“黑客精神”:
- 招聘流程:最后一轮是为期两天的现场工作,候选人与团队一起完成一个项目,这能筛选出充满热情的人。
- 鼓励自下而上的实验,允许员工利用业余时间或将团队分出来进行自由探索(carte blanche)。
八、护城河与未来展望
- 市场类比:
- 类似90年代末的搜索市场:产品体验的天花板非常高,离完全自动化编程还有很长的路要走。
- 类似2000年代初的消费电子市场:抓住类似“iPod时刻”或“iPhone时刻”的机会,可以获得巨大收益。
- AI编程工具的护城河:
- 分发(Distribution)有助于产品改进。拥有大量用户可以获取规模化的产品数据(如用户接受/拒绝/修改了哪些建议),这些数据可以反哺研发,从而改进底层模型。
- 未来展望:
- 未来十年,个人“构建”的能力将被“极大地放大”(so magnified)。
- 这种能力不仅会赋予现有专业人士,也将向更多人开放。