Anthropic 的 CPO 谈下一步 | Mike Krieger(Instagram 联合创始人)

Mike Krieger 2025-06-05

Anthropic 的 CPO 谈下一步 | Mike Krieger(Instagram 联合创始人)


开篇预告:AI 编写代码

Lenny Rachitsky: 你现在大概 90% 的代码是由 AI 编写的。

Mike Krieger: 工作方式最像未来的团队是 Claude Code 团队。他们在用 Claude Code 来构建 Claude Code,形成了一种自我改进的循环。我们很快就遇到其他方面的瓶颈,比如合并队列(merge queue)。我们不得不彻底重新架构它,因为产生的代码量大了太多,提交的 pull request 也多了太多。我们的 pull request 有超过一半是 Claude Code 生成的,现在可能已经超过 70% 了——完全超出了预期。

Lenny Rachitsky: 你们正处于未来趋势的前沿。

Mike Krieger: 我有过一个非常奇特的体验——我同时打开了两个标签页,一个是 AI 2027,一个是我的产品策略文档。那一刻我就想:“等等,我是不是就是故事里的那个角色?“

竞争格局与产品定位

Lenny Rachitsky: 感觉 ChatGPT 在消费者心智占有率上正在赢。这如何影响你对产品、策略和使命的思考?

Mike Krieger: 我认为当前的 AI 领域有空间诞生数家具有时代意义的公司。我们需要想清楚,等我们成熟之后想成为什么,而不是我们现在还不是什么、希望成为什么、或者看到领域内其他玩家在做什么。

Lenny Rachitsky: 关于 AI 的能力和走向,有什么是你改变了看法的?

Mike Krieger: 我刚来的时候有这样一个想法:“是的,这些模型很棒,但它们能有独立的观点吗?“而实际上就在上个月,我的看法完全翻转了。


嘉宾介绍

Lenny Rachitsky: 今天的嘉宾是 Mike Krieger。Mike 是 Anthropic 的首席产品官(CPO),也就是 Claude 背后的公司。他同时也是 Instagram 的联合创始人。他是我最喜欢的产品人和产品思想家之一。他现在正在领导世界上最重要的公司之一的产品工作,我非常高兴能有机会在播客中与他交谈。我们聊到了自他加入 Anthropic 以来,关于 AI 能力他改变最多的是什么;当 90% 的代码由 AI 编写时,产品开发会如何变化、瓶颈出现在哪里——这在 Anthropic 已经是现实了。此外还有他对 OpenAI 与 Anthropic 对比的看法、MCP 的未来、为什么他关闭了上一个创业项目 Artifact 以及他对此的感受,以及在 AI 崛起的背景下他鼓励自己的孩子培养哪些技能。我们在播客的最后还分享了一段 Claude 希望我转达给 Mike 的非常温暖的信息。

(广告段落已跳过)

正式访谈:对 AI 能力的认知转变

Lenny Rachitsky: Mike,非常感谢你的到来,欢迎来到播客。

Mike Krieger: 我真的很高兴来到这里,期待这次对话已经很久了。

Lenny Rachitsky: 哇,很高兴听你这么说,我也期待很久了。我有太多想聊的。首先,你加入 Anthropic 到现在已经刚满一年了。顺便祝贺你达到了股权归属的 cliff。

Mike Krieger: 谢谢。我们可没在倒计时呢。

Lenny Rachitsky: 没错。那么让我来问你:你在 Anthropic 已经大约一年了,从加入之前到现在,关于 AI 的能力和走向,有什么是你改变了看法的?

Mike Krieger: 两件事。一件是关于节奏和时间线的问题,另一件是关于能力的问题。我先说第二件。我刚来的时候有这样一个想法:是的,这些模型很棒,它们能生成代码,最终也能以你的风格写作,但它们能有独立的观点吗?而实际上就在上个月,而且是在 Opus 4 之后,我的看法才真正翻转了——我现在的首选产品策略搭档就是 Claude。基本上这一整年都是如此:我会先写一个初步策略,然后把它分享给 Claude,让它帮我审视。过去它给出的评论都相当平淡无奇,比如”哦,你有没有考虑过这个?“我心想,“考虑过了。“而 Opus 4——我当时正在做一些下半年的策略,这是第一次。它像是 Opus 4 结合了我们的高级研究(advanced research)功能。它真的花了很长时间去深入研究,回来之后给我的感觉是:它确实从一个全新的角度审视了这个问题。这件事我之前可能并不觉得它永远做不到,但我不确定它多快能做到——给出一个让我看了之后说”对,这确实是一个我没考虑过的新角度,我要立刻把它融入我的思考”的东西。所以这可能是我最大的转变——我不知道”独立”是不是合适的词,但至少是相对于我的思考方式而言,它展现出了创造性和思维上的新颖性。

至于时间线,则更有意思。因为我昨天坐在 Dario 旁边,他说:“我一直在做这些预测,人们一直在笑话我。然后它们都成真了。“

Dario 的预测与时间线

Mike Krieger: 这种事反复发生确实很有意思。他自己也说,不是所有预测都会成真。但即便如此,我记得去年他就在说我们在 SWE-Bench 上达到了 50%——这是一个衡量模型编程能力的基准测试。他说,“我觉得到 2025 年底我们会达到 90% 左右。“果不其然,随着新模型的发布,我们现在已经到了大约 72%,而他做出预测的时候我们还在 50%。而且进展基本按照预测的节奏在持续。所以我现在对时间线认真多了。不知道你有没有读过《AI 2027》——

Lenny Rachitsky: 读过,读得我心跳加速。

Mike Krieger: 我当时有一个非常奇异的体验——我开了两个标签页,一个是《AI 2027》,一个是我的产品策略。那一瞬间我心想,“等等,我是不是就是故事里的那个角色?这两者有多少正在重合?“但你读那个东西的时候会觉得,“哦,2027 年,那还远着呢”——不,如果你想到我们现在已经是 2025 年中期,事情还在持续改善,模型能做的事情越来越多,能够自主行动(agentically),能够拥有记忆,能够跨越时间持续运作。所以我觉得我对时间线的信心,虽然不确定具体会以什么方式呈现,但在过去一年里确实变得更加坚定了。

如何避免 AI 的可怕未来

Lenny Rachitsky: 哇,没想到会聊到这个——那篇论文确实令人害怕。我忍不住想问,对于那篇论文描绘的可怕场景——AI 变得极其聪明之后的走向——你觉得我们该如何避免?

Mike Krieger: 这也许正好呼应了我来 Anthropic 一年的原因:我当初为什么加入?我当时看着模型不断变强,甚至在 2024 年初就能看出趋势,再看看我的孩子们,我心想,“好吧,他们将在一个有 AI 的世界里长大。这是不可避免的。“那么我能在哪里最大程度地把时间投入到推动事情往好的方向发展?这其实也是整个行业很多人在思考的问题,尤其是在 Anthropic。所以我认为,我们需要就”什么是好的结果”达成共识,建立一个共享的框架和理解——我们期望的人与 AI 的关系是什么样的?沿途我们如何判断是否走在正确的方向上?沿途我们需要构建、开发和研究什么?我认为这些都是关键问题。其中有些是产品层面的问题,有些是研究和可解释性层面的问题。但对我来说,加入的最强动力就是:我认为 Anthropic 在推动事情往更好的方向发展方面可以做出很大贡献。如果我能在这方面发挥作用,那就来吧。

孩子们需要培养什么能力

Lenny Rachitsky: 我喜欢这个回答。说到孩子,你有两个孩子,我也有一个小孩,马上就两岁了。我很好奇,随着 AI 越来越成为我们未来的一部分,很多工作会发生变化——你在鼓励孩子们培养什么能力?有什么建议?

Mike Krieger: 我们每天早上都和孩子们一起吃早餐,有时候会冒出一些问题,比如关于物理的什么东西——我们最大的孩子快六岁了,他们会用六岁孩子的方式问一些关于太阳系或物理的有趣问题。在我们求助 Claude 之前——因为我的第一反应是,“哦,我想看看 Claude 会怎么回答这个问题。“——我们开始改变做法:“那我们怎么才能找到答案?“答案不能只是”我们问 Claude”——好吧,那我们可以做这个实验,我们可以试试那个东西。所以我认为培养好奇心很重要,同时也要保持一种……我不知道,说给一个六岁的孩子灌输”科学方法”听起来太宏大了,但那种探索的过程——提出问题,然后系统地一步步去寻找答案——我认为仍然很重要。当然 AI 会成为帮助解决其中很大部分问题的强大工具,但那种探究的过程我认为依然非常重要,还有独立思考。

我最喜欢的一个瞬间是——我们家那个六岁的,性格很要强。她说了一个什么,我不确定是不是对的。好像是”珊瑚是动物”还是”珊瑚是活的”?我都不记得具体细节了。我说,“我不确定这是对的。“她说,“这肯定是对的,爸爸。“我说,“好吧,那我们这次问问 Claude。“她说,“你可以问 Claude,但我知道我是对的。“那一刻我心想,我太喜欢了。我想要的就是这种程度的——不把所有认知都委托给 AI,因为 AI 不会总是对的。而且这样做也会短路任何独立思考。所以提问的能力、探究的精神、独立思考,我认为这些都是关键。至于这从职业或工作角度看会是什么样,我只是保持开放心态,而且我确信从现在到那个时候之间会发生剧烈变化。

Lenny Rachitsky: 有意思。Shopify 的 CEO Tobias Lütke 上播客时也给出了同样的答案——他鼓励孩子们发展的也是好奇心。所以好奇心是一个共同的主题,这很有意思。

Mike Krieger: 我们孩子上的那个 K-8 学校请了一位 AI 与教育方面的专家来做分享。我对这场对话的期望非常低。但实际上我觉得他讲的东西超出了在场大多数人的理解——因为他一上来就说,“好吧,让我带你们回到 Claude Shannon 和信息论。“我能看到人们的眼神在说,“我签了什么名来参加这个?为什么我会在学校礼堂里听信息论?“但他做得非常好,我认为他很好地描绘了一种想象:未来会有不同的工作,我们不知道那些工作会是什么样的,所以重要的是那些技能和技术,以及对如何重新组合这些东西保持开放心态。甚至这些组合方式在他们到 18 岁之前可能还会变三次。

AI 写了 90% 的代码

Lenny Rachitsky: 我们在聊时间线和事物变化的速度。我看到了你分享的一些数据,Anthropic 其他人也分享过——你们的代码现在有多少是 AI 写的。有人分享了从 70% 到 90% 不等的数据,有一位工程负责人分享了大概 90% 的代码现在是由 AI 编写的。首先,从零到 90%,也就几年的时间,这简直疯了。基本上就是这样。我觉得人们对这件事讨论得还不够。这太疯狂了。你们基本上处在最前沿。我从来没听说过哪家公司有这么高比例的代码是由 AI 编写的。

所以你们处于事物发展的最前沿。我认为大多数公司最终都会走到这一步。在这么多代码由 AI 编写的情况下,产品开发发生了什么变化?通常的流程是:产品经理说我们要做什么,工程师把它构建出来,然后发布。现在还是大致如此吗?还是说现在产品经理直接找 Claude——“帮我建这个东西”——工程师在做不同的事情?在一个 90% 的代码由 AI 编写的世界里,什么变得不一样了?

Mike Krieger: 是的,这确实很有意思,因为我觉得工程的角色已经发生了很大变化,但汇聚在一起做产品的那群人的构成还没有变。而且在很多方面我觉得这不是好事,因为我觉得我们还抱着一些旧假设。所以各个角色大致还是相似的,不过我现在最喜欢看到的一些现象是:一些好的产品经理有想法想表达,或者设计师有想法想表达,他们会用 Claude,甚至用 Artifacts,拼出一个真正能运行的 demo。这非常非常有帮助。是的,这就是我说的——让它变得具象化。这大概是最大的角色转变了,就是原型制作在流程中大大提前了,通过这种代码加设计的方式来实现。不过我也学到了一点:知道该向 AI 问什么、如何组织问题、如何思考一个涉及后端和前端的变更应该怎么拆分——这些仍然是很难的专业技能,仍然需要工程师来思考。我们很快就遇到了其他瓶颈,比如合并队列(merge queue)——就是排队等你的改动被系统接受然后部署到生产环境。我们不得不把它完全重新架构,因为代码量激增,pull request 数量暴增,完全超出了它原有的承载预期。就像——我不知道你有没有读过《目标》那本经典的流程优化书,里面讲关键路径理论。我就发现我们的系统里冒出了一堆新的瓶颈。上游有一个瓶颈,就是决策和对齐。我现在想了很多的一个问题是:如何提供最小可行策略,让每个人都感到被赋能,可以去奔跑、去动手、去构建、去探索模型能力的前沿。

我还没把这个做好,但这是我正在努力的。然后一旦开始构建,其他瓶颈又冒出来了——确保大家不会互相踩脚,提前把所有边界情况想清楚,这样我们在工程侧就不会被卡住。等作品完成准备发布的时候,又有一堆瓶颈:做变更着陆的空中交通管制,怎么确定大的战略方向。所以我认为之前这些环节并没有承受太大压力,但到今年就开始了。我预计一年之后,我们构想、构建和交付软件的方式会发生很大变化,因为继续按现在的方式做会非常痛苦。

Lenny Rachitsky: 哇,这太有意思了。以前的流程是:有个想法,去设计,构建,合并,然后发布。通常瓶颈在工程——花时间构建东西,然后是设计。现在你说你发现的两个瓶颈是:决定做什么、让大家对齐,然后是把代码合并到生产环境的队列。我猜代码审查大概也是其中一部分——

Mike Krieger: 审查方式也确实变了。而且在很多方面也许并不意外:工作方式最超前的是 Claude Code 团队,因为他们用 Claude Code 来构建 Claude Code,一种自我改进的循环。那个项目早期,他们会逐行做 pull request 审查,跟你对任何其他项目做的一样。后来他们意识到 Claude 通常是对的,它产出的 pull request 可能比大多数人能审查的规模还大。那能不能用另一个 Claude 来审查,然后人类更多地做验收测试,而不是逐行审查?这当然有利有弊,目前为止效果不错。但我也能想象它脱轨的情况——产生一个既无法维护、连 Claude 自己都无法理解的代码库。这还没发生,但观察他们改变审查流程确实很有意思。

合并队列与交付瓶颈

合并队列是下游瓶颈的一个例子,但还有其他的——我们怎么确保构建出来的东西仍然是连贯的,怎么把它打包成一个可以分享给用户的时刻。不管是围绕一个发布时刻,还是让用户开始使用这个东西并对外讲它——构建对用户有用的东西、让人们知道你构建了它、然后从反馈中学习,这些经典环节依然存在。我们只是把整个流程中的一部分变得高效了很多。

Lenny Rachitsky: 我听你把这个描述成你们是这种工作方式的 patient zero(零号病人)。

Mike Krieger: 是的。

Lenny Rachitsky: 我喜欢这个说法。你知道 Claude Code 大概有多少比例的代码是 Claude Code 自己写的吗?

Claude Code 用 Claude Code 编写自己

Mike Krieger: 到现在这个阶段,如果不是 95% 以上我会很惊讶。我得去问 Boris 和团队里其他技术负责人。但有意思的是——比较细节的方面——Claude Code 是用 TypeScript 写的,实际上是我们最大的 TypeScript 项目。Anthropic 其余大部分是 Python,有些 Go,现在也有些 Rust,但我们不是一个 TypeScript 为主的团队。我昨天在 Slack 里看到一条很棒的评论,有人被 Claude Code 的某个问题搞得头疼,他们说:“嗯,我不懂 TypeScript,我就直接跟 Claude 聊,让它来弄。”

然后他们在一个小时内就提交了 pull request,解决了问题。这种壁垒的打破——一方面,它改变了任何新人加入项目的门槛。我觉得这也让你能根据任务选择合适的语言。这是有帮助的。但我觉得它同时也强化了 Claude Code 作为那个 patient alpha 的角色——来自团队外部的贡献也可以用 Claude Code 来完成。

Lenny Rachitsky: 哇,你分享的这些继续让我震撼——大约 95% 的 Claude Code 是由 Claude Code 自己写的。

Mike Krieger: 这是我的猜测。对,我会回去确认真实数据。但你问团队的话,他们就是这样工作的,全公司各地的贡献也是这样来的。

战略层面的 AI 辅助

Lenny Rachitsky: 回到你刚才说的——Claude 本身也在辅助战略,还有你提到的很多瓶颈现在集中在漏斗顶端——提出想法、让大家对齐。有意思的是 Claude 已经在帮忙做这件事了,帮你决定该构建什么。那么如果这两个瓶颈——决定和对齐、合并和交付——是关键所在,你觉得最有趣的变化会发生在哪里来加速这些环节?

Mike Krieger: 对,我觉得在第一个问题上,我年初写了一篇文档,核心内容是:我们现在怎么做产品,以及 Claude 还没有出现在哪些它应该出现的地方。我认为上游环节是下一个会被改变的。这很有意思。在你的大会上我碰到一个人在做 PRD 相关的东西,一个 PRD GPT,好像叫 ChatPRD——

Lenny Rachitsky: ChatPRD,对。


Claude 作为虚拟协作者的愿景

Mike Krieger: 对,Claude 能不能成为帮我们确定”该做什么”的合作伙伴?如果你想从市场角度出发,市场规模有多大?换个角度看,用户需求是什么?我们在”虚拟协作者”这个概念上思考了很多,我认为它的一种体现方式就是——“我在 Discord,Claude Anthropic 的 Discord,在用户论坛里,在 X 上浏览各种讨论,这些是正在涌现的声音。“这是第一步,现在的模型已经能做到了。第二步,模型今天大概也能做,只是需要把它们接入——不仅是发现问题,还能给出”我觉得可以这样解决”的建议。然后进一步推进——“我整理了一个 pull request 来解决我观察到的这个问题”——把这些环节串联起来,今年之内是非常可实现的。我们的瓶颈更多在于……

这也是为什么 MCP 让我很兴奋。我们的瓶颈更多在于确保上下文在这些环节之间顺畅流转,确保有正确的访问权限,而不是模型推理和提出方案的能力。当然,模型目前可能还没有完美的 UI 审美,所以设计介入的空间肯定是有的,比如”嗯,这个问题我不会这么解决”。但我确实会对这种能力非常兴奋。我举个很小的例子——我们在 Claude AI 上做了一个改动:之前你只能从 Artifacts 里复制 markdown 或代码,我们把它改成了可以下载和导出。我们把按钮改成了”导出”,结果收到了一堆反馈说”现在怎么复制?“答案是点击下拉菜单,里面有复制选项。

就是那种从逻辑上说得通但我们可能没做到位的事情。那个反馈出现在 RUX 频道里。我希望一小时后能有一个方案说:“嘿,如果我们确实想改回去,这里是做这件事的 PR。“顺便说一句,接下来我会启动一个 A/B 测试,看看这是否影响指标,一周后我们再看结果。如果你一年半前跟我说这些,我大概会说”呃,可能 27 年吧,也许 26 年。“但现在感觉这些能力就在指尖,呼之欲出。

Lenny and Friends Summit 座谈回顾

Lenny Rachitsky: 哇,好的。你提到了 Lenny and Friends Summit,我想聊聊这个。你和 OpenAI 的首席产品官(CPO)Kevin Weil 一起参加了座谈,我想那可能是你们第一次同台,也许也是目前最后一次。

Mike Krieger: 对,之后没再做过,没什么特别原因。那次我玩得很开心。

Lenny Rachitsky: 我们组了一个传奇级别的座谈,由 Sarah Guo 主持。你当时说了一段话,后来成了那次访谈中被回看最多的部分——你说你把产品人员放到模型团队里,和研究人员一起让模型变得更好,同时也把一些产品人员放在产品体验方面,让 UX 更直观,让各种体验更好。你发现几乎所有的杠杆效应都来自产品团队与研究人员的合作,所以你在这方面投入了更多。首先问一下,这个判断现在还成立吗?其次,这对产品团队意味着什么?

产品人员嵌入研究团队

Mike Krieger: 这个判断依然成立。事实上,如果说之前比例就已经偏向这种嵌入式协作,我现在更加确信了。在峰会期间我还没有这么强烈的感受,但现在我非常确定。如果我们发布的东西是任何人用我们现成模型就能做出来的——顺便说一句,用我们现成模型做出来的东西也可以很棒,别误会——但我们应该深耕的领域、我们能独一无二做到的事情,应该是处于两者之间那个神奇交汇点上的东西,对吧?

Artifacts 就是一个很好的例子。如果你用 Claude 4 体验 Artifacts——这是一个非常有趣的例子:我们有一个 Claude Code Skills 团队,专门做后训练,教 Claude 一些非常具体的技能,我们把其中一些人和产品人员配对,然后一起重新设计了它在产品中的呈现方式,以及 Claude 能做什么——这比”嗯,我们就用了模型,加了一点提示词”要好得多。那远远不够,我们需要参与到微调过程中。

看看我们现在在做什么、最近发布了什么——研究功能以及其他所有这些——Anthropic 的工作单元已经不再是”拿模型,然后和设计、产品一起发布产品”了。更像是我们参与到后训练的讨论中,探讨这些功能应该怎么运作,然后参与到构建过程中,把反馈回传,形成闭环。

我觉得这很令人兴奋。这也是一种新的工作方式,不是所有 PM 都具备。但从研究和工程团队获得最多内部正面反馈的 PM,正是那些理解这一点的人。昨天我参加了一个产品评审,我说:“哦,如果我们想做这个记忆功能,我们应该和研究人员谈谈,因为我们刚在 Claude 4 里发布了一系列记忆能力。“他们说:“对对,我们已经跟他们聊了好几周了,这就是我们的实现方式。“我就想:好的,我感觉很踏实,我觉得我们走在正确的方向上。

产品团队的未来价值

Lenny Rachitsky: 让我沿着这个话题再追问一下,这方面我一直在想一些问题。本质上来说,Anthropic 很大一部分工作是在构建一个超级智能的巨型大脑,随着时间推移,它会帮我们做所有这些事情。然后,如你所说,还有产品团队,围绕这个超级智能巨型大脑构建用户体验。而且随着时间推移,这个超级智能会能够自己构建东西。所以我想问,传统产品团队最大的价值会在哪里?我知道这有点不同,因为你们是一家基础模型公司,大多数公司不是这样运作的,但就是想听听你的想法——随着时间推移,在 AI 领域工作的产品团队最大的价值来源是什么?

Mike Krieger: 我觉得有两个方面仍然很有价值。第一是让这一切变得可理解。我觉得我们做得还行,但可以做得好得多。真正擅长在工作中使用这些工具的人,和大多数人之间的差距仍然非常大。这也许是对你之前关于”该学什么技能”那个问题最直接的回答。这就是一项值得学习的技能——就像我还记得中学时上计算机实验课,我当时特别擅长用 Google,那在当时确实是一项技能——用”信息就在那里,我该怎么检索、怎么找到”的思维方式来思考。我认为那在当时确实是一种优势。

当然,现在 Google 已经很擅长在你只给出模糊意图时就判断出你想要什么了,那种搜索研究的需要变少了。但我仍然认为这是做好产品开发所必需的一部分——能力就在那里,即使 Claude 可以从零开始创建产品,你要构建什么、如何让它变得可理解?这仍然是困难的,因为我觉得这涉及对人类需求和心理更深层的共情与理解。我大学学的是人机交互专业——我又在推销自己的专业了——我至今仍然觉得那是一项非常、非常、非常、非常必要的技能。这是第一点。

第二点,这其实可以直接呼应你另一位嘉宾的观点——战略,即我们怎么赢、在哪里竞争,想清楚在所有你可以投入时间、token 或算力的事情中,你到底要去做什么。你可能比以前覆盖面更广,但你不可能什么都做。而且从外部视角来看,如果人们觉得你什么都做,你的定位就会变得非常不清晰。所以战略仍然是第二块。然后第三点是打开人们的眼界,让他们看到什么是可能的——这是”让它变得可理解”的延续。最近我们和一家金融服务公司做演示,展示如何结合使用我们的分析工具和 MCP,你能看到他们眼睛亮了——“啊,原来如此。“我们内部称之为能力落差(overhang)——模型和产品能做的事情,与人们日常实际使用方式之间的差距。这种落差非常大。所以产品团队依然有非常、非常强大且必要的角色。

Lenny Rachitsky: 好的,这个回答太棒了。所以本质上来说,产品团队应该更多投入的方向是——战略,不断在战略上做得更好,想清楚要构建什么、如何在市场中获胜;让工具变得更可理解,帮助人们理解如何利用这些工具的力量;以及沿着一脉相承的思路,打开人们的眼界,让他们看到这些工具的潜力。这就是产品团队仍然可以发挥作用的地方。

Mike Krieger: 没错。

Lenny Rachitsky: 太好了。沿着这个思路,你有没有什么提示词技巧可以分享?就是你在和 Claude 聊天时学到的、能从 Claude 那里获得更好输出的方法?

提示词技巧

Mike Krieger: 有时候挺有意思的,因为在某种程度上,我们拥有终极的提示词工作——为 Claude AI 编写系统提示词(system prompt),而且我们会把所有系统提示词都公开,我觉得这也是透明度方面的一个亮点。我们在给出提示词建议时总是很谨慎,至少官方层面是这样——不过我可以告诉你非官方的版本——因为你不想变成”我们觉得这样有效,但不确定为什么”的情况。但我确实会做一些小事,比如在 Claude Code 中——我们实际上对这个指令响应非常直接——我总是让它”深入思考”(think hard),它就会走一个不同的流程,我通常从这个开始。然后是推动方向的调整。有一篇很好的文章叫”犯另一种错误”——如果你倾向于太过友善,可以试着专注在另一个方向……即使你试图变得更挑剔、更直率,你可能也不会成为世界上最挑剔、最直率的人。

所以在和 Claude 交互时,有时候我会说,“狠一点,Claude,毫不留情地批评我。告诉我这个策略有什么问题。“我们之前聊到过 Claude 作为思维伙伴来审视产品策略。我以前会说类似”这个产品策略还有什么可以改进的?“但现在我直接说”毫不留情地批评这个产品策略”,而 Claude 本质上是一个相当友善的存在,要把它推到非常苛刻的程度很难,但这确实能迫使它更具有批判性。

最后我想说的是,我们有一个团队叫 Applied AI,他们和我们的客户做了大量工作,围绕如何针对客户的使用场景优化 Claude。我们基本上把他们的洞察和工作方式做成了一个产品本身。如果你去我们的控制台、我们的工作台(workbench),有一个叫提示词优化器(prompt improver)的工具——你描述问题,给出示例,Claude 会自主行动(agentically)创建并迭代优化一个提示词。我发现它产出的结果和我直觉上认为的好提示词差异很大。所以我鼓励大家也去看看,即便用于自己的个人场景——虽然这个工具是为 API 开发者设计的,用于把提示词嵌入他们的产品中,但它对个人用户同样适用。它会插入 XML 标签,这是人类事先想不到去加的东西。这些标签对 Claude 来说确实非常有帮助,能帮它理解什么应该思考、什么应该说出来,等等。所以另一个建议是:关注我们的提示词优化器,同时注意,Claude 本身就是 Claude 的一个非常优秀的提示词编写者。

Lenny Rachitsky: 太好了。好的,我们会附上提示词优化器的链接。你分享的核心建议是:做与你本能相反的事。所以如果你倾向于友善,那就要求它——狠一点,对我非常坦诚直率。

Mike Krieger: 没错。我发现这个方法效果很好。你可以说:“我陷入了哪些思维定势,帮我打破它们。“

Rick Rubin 合作项目

Lenny Rachitsky: 我看到你们好像今天刚刚发布了一个和 Rick Rubin 的合作项目,说的是 vibe coding。那是怎么回事?

Mike Krieger: 我所了解到的是——这一周我们有很多事情汇聚在一起,模型发布、开发者活动,还有 The Way of Code。我们的联合创始人之一 Jack Clark 是我们的政策负责人,他和 Rick Rubin 取得了联系,因为我觉得他一直在思考编程、编程的未来以及创造力这些话题,他们保持了联系。Rick 对用 Claude 进行艺术和可视化创作感到很兴奋,然后他有了关于”vibe coder 之道”的想法,他们就把这些做成了一个项目。说实话,Rick Rubin 的作品我几乎都喜欢,所以它的美学风格我觉得也非常到位。但这就像是一种——冥想可能是最合适的词——关于与 AI 协同创造的冥想,配合着非常丰富、有趣的可视化。不过这种事在内部的反应就是,他们说”对,我们正在做 Rick Rubin 的合作项目”,我们就”我们在做什么?太厉害了。”

Lenny Rachitsky: 我简单看了一下,有那个梗图,就是他坐在电脑前深思的样子,嘴巴张着。

Mike Krieger: 对。

Lenny Rachitsky: 还有 ASCII 艺术,好像是。

Mike Krieger: 完全是,就是 ASCII 艺术风格的。

Lenny Rachitsky: 实际上回到你加入 Anthropic 的起点,你被招募进去的故事是什么?有什么有趣的地方吗?

Mike Krieger: 这一切的开端,其实我还给朋友发了条短信来说这事。Joel Lewenstein,我认识他很久了,2007 年我们俩一起做了第一批 iPhone 应用,那时候 App Store 刚上线,你还能靠在上面卖一美元的应用赚到钱。我们都在斯坦福,是朋友,多年来一直保持联系,但从那以后就没机会一起工作过,只是一直关系很好。Artifact 那段经历结束后,我在想,我是不是再创一次业?我觉得不是。我需要休息一下,不想再从零开始。那我是去某个公司上班?我不知道自己想去哪家公司。然后他联系我说:“你看,我不知道你有没有考虑过加入一家公司而不是自己创业,但我们在招 CPO,你有兴趣聊聊吗?”

当时 Claude 3 刚刚发布,我就觉得:“好吧,这家公司显然有一支很好的研究团队。产品还处于非常早期的阶段。” 然后就想:“行,先见个面吧。” 我最先见到的是 Daniela,她是 Anthropic 的联合创始人兼总裁。从一开始我就觉得耳目一新,创始人们几乎没有那种浮夸的做派,他们对自己在做的事情看得很清楚,也知道自己的盲区在哪里。我跟 Dario 聊的时候有多少次,Dario 总是说:“你看,我对产品一窍不通,但有个直觉。” 通常那个直觉确实很好,能引出很有价值的讨论。我觉得那种学术上的诚实,以及对负责任地做 AI 的共同理念,真的很打动我。

在这些面试过程中,我不断有一种感觉:这就是我当初如果创办一家 AI 公司会希望找到的那种公司。这也成了我判断是否加入某家公司的标准——如果要加入,就应该是这样的地方。但我后来意识到,从大学第一次实习以后,我基本上就没加入过别的公司了。我当时想:“哦,我该怎么给自己做入职?我怎么快速上手?怎么在做大刀阔斧的改动和搞清楚哪些东西没坏之间取得平衡?” 回头看这一年来,我觉得有些改动的步伐太慢了。产品团队的组织架构,我本可以更早做出调整。我也没有充分意识到,几个真正关键的高级人才对产品策略的影响有多大。

再回来说 Claude Code。Claude Code 的诞生是因为 Boris——实际上叫 Boris Cherney,他曾是 Instagram 的工程师,也是我们在那里的一位高级 IC,我们有过一些交集——他从零开始做了这个项目,先在内部推出,然后我们把它做出来发布了。这就是一两个真正强的人的力量。我犯过一个错误,就是觉得我们需要更多人头,我们确实需要,还有很多工作要做,还有很多东西我想去构建。但比人头数量更重要的是,我们需要几个近乎创始人类型的工程师——这也许可以回应你之前关于哪些技能有用、产品开发会如何变化的问题。甚至更进一步的,我越来越坚信:给一个有想法的创始工程师/技术负责人配上合适的设计和产品支持,帮他们把想法落地。我对这种模式的信念比以前强了十倍。

为什么关闭 Artifact

Lenny Rachitsky: 我其实在这次对话之前在 Twitter 上问大家想问你什么。最常见的问题出乎意料是:你为什么关闭了 Artifact?我也一直很好奇,因为我很喜欢 Artifact。我是重度用户,就觉得”终于有一个我喜欢的新闻应用了,它给我想看的内容”。所以到底最后发生了什么?

Mike Krieger: 我也还是很想念它。我没有找到替代品,我现在靠直接访问各个网站来保持阅读习惯。但体验真的不一样,尤其是我们在 Artifact 上做到的那种体验——如果之前没有用过的话,我们真正试图做到的不仅仅是推荐热门文章,热门文章只是其中一部分。更重要的是,如果你对日本建筑感兴趣,你几乎每天都能看到关于日本建筑的真正有趣的内容,不管是来自 Dwell 还是 Architectural Digest,还是某个我们发现的、有人推荐给我们的非常小众的博客。它捕捉到了一点 Google Reader 时代那种深度网络内容发现的乐趣。但我们面临几个逆风。一个是移动端网站的体验确实在走下坡路。我不怪任何个人。

我觉得这是市场 dynamics 决定的。我们的设计师 Sky Gunner Gray 非常出色,现在在 Perplexity 工作,那个应用的体验我曾经非常自豪,但当你点击进去之后,移动端网站和移动端出版商施加的那些东西——“订阅我们的邮件通讯”,“这是一个全屏视频广告”——体验非常割裂。从伦理角度,我们也不觉得应该做大量广告屏蔽,因为那样你确实能给用户一个好的体验,但那对出版商来说不公平。但与此同时,实际体验确实不好。所以移动端网络的恶化——这让我很难过——但我觉得是原因之一。第二个原因是 Instagram 在早期传播是因为人们拍了照片后会发到其他社交网络,然后告诉朋友。

那种传播非常自然:“你是怎么做到的?我也想试试。” 但新闻是非常私人的东西。我不知道有多少人跟我说过”我超爱 Artifact”,我问他们:“你跟别人推荐过吗?“他们说:“我跟一个人说过。“它没有那种自发传播性。我们试过各种办法,但都显得很刻意,比如”我们把所有链接都包装成 artifact.news 的格式”。但我们不想做插页式的东西。在某些方面,这听起来很清教徒式,我不是故意要这么表达,但我们确实有一些不愿意跨越的底线,就是觉得从伦理上那不是我们该做的事,而我看到其他新闻产品做得更多。也许如果我们那样做了,增长会更快,但我不认为那是我们想打造的公司,我们也不是那种创始人。

关闭 Artifact 的决定

Mike Krieger: 第三个原因,一个被低估的因素,是我们起步于 COVID 中期,这意味着我们完全分散办公。而我认为我们本需要在战略、产品和团队上做一些重大调整,但如果全员远程,这真的很难做到。没有什么能替代 Instagram 早期的那种经历——我们曾一起熬过一些艰难时刻,就像 Ben Horowitz 说的那种”我们完蛋了,一切都结束了”的时刻。这绝对是第二种乐趣。我不会说那是我最美好的回忆,因为那并不是愉快的经历,但那些真正留在脑海中的 Instagram 记忆,是我和 Kevin 在 Market Street 的 Taqueria Cancun 吃卷饼,真的是晚上十一点,讨论着”我们怎么走出这个困境?我们怎么解决这个?“而 Zoom 无法真正复制那种体验。

远程办公时,你容易把事情搁置,或者问题随着时间不断累积。所以这几个因素叠加在一起,我们进入 2024 年时说:“看,这个领域确实可以建立一家公司。但我不确定什么人会去做。我们很喜欢目前这个版本,但它没有增长。“我当时的说法是,十单位的投入只换来一单位的产出,而不是反过来。如果我们把心血和汗水倾注到产品中,发布了让我们自豪的东西,但指标几乎不动——这个产品里、这个系统中没有能量。那么,我们是再花一两年时间,然后去融资,结果发现还是这样?还是承认它已经走完了自己的路,尝试给它找个归宿,等等。

所以这些因素汇聚在一起,同时我们开始感受到一种机会成本——AI 正在改变一切。我们有一个 AI 驱动的新闻应用,但这真的是我们能产生最大影响的方式吗?答案越来越像是否定的。但这并不容易。最终我对这个决定确实很坦然,但那是一个持续了几个月的对话。

Lenny Rachitsky: 说到这里,这件事到底有多难?因为其中有自尊心的因素——“哦,我创办了新公司,它会了不起的”,然后你却不得不把它关掉。作为一个之前非常成功的创始人,亲手关掉自己的项目,知道它行不通,这到底有多难?

Mike Krieger: 是的,我觉得我们刚开始做的时候,有一次对话是:“看,成功的标准是什么?我们要不要把它设定为一个不同于 Instagram DAU 的东西?“那根本是一个不可能达到的标杆。从那以后,可能只有一家公司,也许两家——你可以说 ChatGPT 和 TikTok——达到了那种大规模消费者采用的级别,从零开始做一个新闻应用。大多数人甚至都不是每日新闻读者,对吧?所以我们知道我们追求的不是那种体量的使用,至少在第一个版本不是。但我们确实有一个愿景,逐步构建一系列互补产品,都用个性化和机器学习。那时候我们甚至不叫它 AI。那是 2021 年——

Lenny Rachitsky: 对对对,AI 那时候还叫机器学习。

Mike Krieger: 对,那时候还叫机器学习。所以在关闭它的时候,用户增长和吸引力的状况,你看到了就会知道。我没有期待 Instagram 式的增长,但我确实期待、或者说希望、或者说寻找的是——一种感觉它能自己站稳脚跟、能持续复利的增长。我们在宣布关闭时,人们的支持让我真的很惊喜。有一些”我早就说了”的声音——当然可以理解,任何东西发布的时候总会有人说”这行不通的”,而且他们说得对,大多数时候大多数事情确实行不通。但那种声音其实非常少。大多数人,至少我所感受到的普遍反应是——赞扬你在看清楚的时候就做了决定,而不是拖延下去。

后来有些创始人对我说:“是啊,我可能本来会把这件事再拖六个月,但看到你们做的决定,意识到我们也在走错方向,就做出了决断。“我说:“如果这能让人们去做更有意思的事情,我觉得那就是 Artifact 留下的一个好遗产。“但当然,自尊心确实受到了挫伤——那句老话,你是不是只有上一场表现才算数?我是个超级体育迷嘛。所以这句话到底对不对?还是说应该看更长时间线上的表现?我非常好胜,但主要是跟自己比,所以我总是在寻找下一个我想去做的、有难度的事情。而不幸的是,这可能意味着大多数时候我会对自己最近做的事情感到不满意,但希望最终这样能产出好的结果。

Anthropic 的品牌定位与 ChatGPT 的竞争

Lenny Rachitsky: 是的,我觉得你之后的轨迹证明了,关闭自己正在做的东西是可以的。好的,你刚才提到了 ChatGPT,我想聊聊这个。现在正在发生一件很有意思的事。一方面,你们在做一些 AI 领域最具创新性的工作。你们推出了 MCP,我不知道这是不是有史以来增长最快的标准,所有人都在采纳——Claude 驱动的,而且从中心位置解锁了世界上增长最快的公司,Cursor、Lovable、Bolt,所有这些。我请他们上过播客,他们都说:“当 Claude,我想是 3.5 出来的时候,Sonnet,就是那一刻,终于让这一切行得通了。”

但另一方面,感觉 ChatGPT 正在赢得消费者心智份额。当人们想到 AI,尤其是科技圈外的人,他们脑子里就是 ChatGPT。所以我想问你,首先你是否同意这种看法?其次,作为 AI 领域的挑战者品牌,这如何影响你对产品策略和使命的思考?

Mike Krieger: 是的,你看公众的接受度,或者如果你去街上随机问人,说出一家 AI 公司的名字,我猜他们会说出——实际上我甚至不确定他们会说 OpenAI,他们可能直接说 ChatGPT,因为那个品牌本身就是主导品牌。我觉得这就是现实。回顾我这一年,我觉得可能有两件事是真的。第一,消费者端的普及真的是可遇不可求的事,我们在 Instagram 亲身经历过。所以也许比任何人都更清楚这一点,我可以对内说:“看,我们会继续打造有趣的产品,其中一个可能会爆发。“但把整个产品策略围绕寻找那个爆发点来制定,可能并不明智。我们可以这么做,也许 Claude 能帮我们想出各种各样的东西,但我觉得我们会因此错失过程中的机会。

第二,不如照照镜子,拥抱你自己是谁、你能成为什么,而不是去看别人是谁。这是我一直在思考的角度。我们有一个极其强大的开发者品牌,人们一直在我们之上构建东西,我觉得我们还有一个建造者品牌。那些对外部对 Claude 反应非常好的人——也许 Rick Rubin 的关联也在此产生了一些共鸣——我们能不能更加 leaning into 这个事实:建造者喜欢用 Claude?而这些建造者并不全都是工程师,也不全都是创业者,他们是那些喜欢站在 AI 最前沿、正在创造东西的人。也许他们自己不认为自己是工程师,但他们确实在构建……我收到了一封非常好的内部信,来自 Anthropic 法务团队的同事,他为自己家人搭建了定制软件,以一种新的方式与家人连接在一起。

Mike Krieger: 当时我就觉得,“这是一个值得大力 lean into 的信号。“所以,这也呼应了我们说 Claude 在这方面能帮上忙。我在思考下半年及以后的规划时,很大一部分精力放在:我们到底想成为什么样的公司,而不是纠结于我们目前不是什么、我们希望自己是什么、或者看到其他玩家在做什么。我认为 AI 领域还有空间容纳数家具有划时代意义的企业。这几乎是一种不言自明的判断——看看 Anthropic 的普及率和增长,再看 OpenAI、Google 和 Gemini 的表现就知道了。所以,让我们找到那些我们能独一无二地做好的事情,契合创始人的特质。所有这些因素汇聚在一起——创始人的性格、模型的质量、模型擅长的方向,也就是自主行动和编程能力。

这方面有很多事情可做。我们如何帮助人们完成工作?如何让人们把数小时的工作交给 Claude 去做?也许在初期,面向大众消费者的直接应用会少一些。我相信它们会出现的,但我不认为把所有时间都花在那上面是正确的做法。所以我刚来的时候,所有人都以为我会全力押注消费者端,把那变成核心。但那样反而会犯另一个错误。相反,我花了很多时间与金融服务公司、保险公司以及其他基于我们的 API 构建产品的企业交流。最近我又花了很多时间与初创公司接触,看看那些在此基础上成长起来的企业。我觉得我的下一个阶段就是:去和建造者、制作者、黑客、折腾者们待在一起,确保我们真正服务好了他们。我相信好的结果会随之而来,而这也会成为一家重要的公司。

差异化与聚焦

Lenny Rachitsky: 所以本质上是差异化与聚焦——lean into 那些已经在奏效的事情,而不是试图在别人擅长的领域打败他们。

Mike Krieger: 没错。

AI 创业者的安全地带

Lenny Rachitsky: 非常有趣。顺着这个思路,很多 AI 创始人都在问一个问题:“哪里是我的安全地带?基础模型公司不会来碾压我的地方在哪里?“我之前问过 Kevin Weil 这个问题,他给了回答。但我回看那次对话时发现,他反复提到 Windsurf。我当时就想,“这个人真的很喜欢 Windsurf。“然后一周后他们就收购了 Windsurf。现在一切都说得通了。所以我想问的是,你认为 AI 创始人应该在哪个领域施展,才最不容易被 OpenAI 和 Anthropic 这样的公司碾压?另外,你们会收购 Cursor 吗?

Mike Krieger: 我觉得我们不会收购 Cursor。Cursor 已经很大了,但我们很喜欢与他们的合作。关于这个问题我有一些想法,这也是我经常被问到的问题。我们喜欢做一些创始人日活动——不管是和 Menlo Ventures 以及他们的被投企业,还是和 YC,我们都做过这类创始人日活动。这些问题确实萦绕在很多创始人心中,这完全可以理解。

创业者的护城河

我觉得那些具有防御性和持久性的东西——我不能保证这是五到十年的判断,但至少一到三年内——有几类。第一是对特定市场的深度理解。我花了一些时间与 Harvey 的团队交流,他们给我展示了一些界面,我说,“这是什么?“他们说,“这是律师们一个非常特定的工作流程。“你从零开始根本想不出这样的东西,你甚至可以争论这是不是最优的做法,但这就是他们做事的方式,而这就是 AI 能帮上忙的地方。

差异化的行业知识——比如生物技术,我很期待与一批在 AI 和生物技术领域做实事的公司合作,我们可以提供模型和一些 Applied AI 来帮助这些模型发挥更好。我一直在畅想,什么时候实验室里的仪器都能接入 MCP,然后你就可以用 Claude 来驱动它们。那里有很多很酷的事情可以做。我不觉得我们会成为那家为实验室打造整体解决方案的公司,但我希望那家公司存在,我想和它合作。法律领域,还有医疗健康——里面有很多非常具体的合规要求和各种事项。这些东西一开始听起来不一定性感,但那里能长出非常大的公司。这是第一点。

与这配套的是差异化的进入市场(go-to-market)策略,也就是你与那些客户之间的关系。

你是否了解你在那家公司里的客户?我们的产品负责人 Michael 总是说,不要只了解你在卖产品给哪家公司,还要了解你在卖产品给那家公司里的哪个人。你是在卖给工程部门吗?因为他们正在选择用哪个大模型或 API 来构建产品,那就去和他们聊聊。是 CIO 吗?CTO 吗?CFO 吗?还是 general counsel?所以对所售对象——不仅是公司层面,还要到具体决策人——的深度理解,这是另一个关键因素。有趣的是,这种共情力可能很难在一个三个月的加速器里培养出来,但你也许可以从第一场对话开始,花时间去建立,或者你本身就来自那个行业,或者你的联合创始人来自那个行业。

最后一点——ChatGPT 拥有数亿甚至数十亿用户,这种分发能力和覆盖面确实有巨大的力量。

但另一方面,人们也已经形成了一种关于”如何使用某个产品”的固有假设。所以我对那些初创公司很兴奋——他们会以一种完全不同的形态(form factor)来设计我们与 AI 交互的方式。目前我还没看到太多这样的尝试,我希望能看到更多。我觉得随着我们新模型的推出,会有更多这样的公司涌现。这个领域之所以值得关注,是因为你可以做一些在最初感觉非常高级用户、非常极客、非常另类的东西,但如果模型让它变得容易,它就有可能变得巨大。而在位企业很难适应,因为人们已经对如何使用他们的产品有了固有的预期。这就是我的回答。我同情他们。如果我在 AI 领域创业,我大概也会问同样的问题。

也许这也是我选择加入一家公司而不是自己创业的原因之一。但我依然认为——也许这算是第四点——不要低估你能以多大的程度像一个初创公司那样思考和行动,感受到是你在对抗整个世界。你必须解决那个问题,你必须把它做出来,这是关乎存亡的事。这听起来有点老套,但这就是我们在 Instagram 时拥有的一切。当时就我们两个人,“看看我们能在 Artifact 里做出什么。“大部分时间里我们就六个人,每一天都感觉成败系于这一刻——我们必须做对,我们必须赢。这种东西你无法复制,也无法用 OKR 来灌输。你必须亲身感受到它。这是一种工作方式,而不是一个特定的建造领域,但如果你能驾驭它,它就是一种持续的优势。

在模型能力的边界上构建

Lenny Rachitsky: 我很欣赏你在为这么大的公司打造产品的同时,依然保持着如此深厚的产品创始人直觉。换个角度——有很多公司在使用你们的模型和 API,我猜有些公司找到了将你们的模型和 API 发挥到极致的方法,非常擅长最大化你们所构建的东西的力量;而有些公司用了你们的 API 和模型,却还没有找到门道。那些基于你们的产品做得特别好的公司,做对了什么不同的事情?你觉得其他公司应该怎么思考?

Mike Krieger: 我认为关键是愿意在模型能力的边界上构建产品,基本上就是在试探模型的极限,让它出错,然后在下一个模型出来时感到惊喜。你提到那些公司说 3.5 是第一个让他们真正可行的版本——这些公司在此之前就在不断尝试,然后撞墙,觉得”模型差不多了但还差一点”,或者”在这个特定场景还行,但不够通用,没人会全面采用,也许只有那些硬核用户会试试看”。这些公司就是让我觉得”对,他们懂了,他们真正在推进前沿”的那一批。我们对这些新模型运行了比以往更广泛的早期访问计划,部分原因是我们确实——我们可以在各种评测基准上不断优化,讨论 SWE-Bench 和各种基准测试,但客户最终知道的是他们自己的”Cursor 基准”——这个基准并不存在于任何公开榜单,而是体现在他们的实际使用和自己的测试中。

不仅仅是 Cursor,还有 Manus 的基准,对吧?如果 Manus 在用我们的模型,还有 Harvey 的基准——这些东西,客户比任何人都清楚。所以我想说有两点。一是不断推进模型能力的边界,二是建立一个可重复的流程。这其实回到了我们在 summit 上讨论的话题——找到一种可重复的方式来评估你的产品在多大程度上服务于那些使用场景,以及当你投入一个新模型时,它做得更好还是更差?其中一些可以是经典的 A/B 测试,这没问题;一些可以是内部评估;一些可以是捕获 trace 然后用新模型重新运行;还有一些就是凭感觉——我们在这个阶段还比较早期,有些时候你就是要亲自试试。我最喜欢的一个早期访问的故事是一位创始人听到旁边的工程师尖叫。他问怎么了,那个工程师说”这个模型?我从来没见过这种表现。“那就是 Opus 4。创始人觉得——“太酷了。“我们就是要激发那种感觉。但除非你有一个真正困难的问题反复去问模型,否则你不会体会到那种感受。所以这些就是区分那些尚处于早期采用阶段的公司和更成熟公司的关键所在。

MCP 的未来

Lenny Rachitsky: 我忍不住要问一下 MCP,我觉得它现在太热了,微软最近也发了公告,说它将成为 Windows 操作系统的一部分。你认为 MCP 在未来 AI 产品中会扮演什么角色?

Mike Krieger: 作为团队里的非研究人员,我可以用一些”伪公式”而非真正的公式。关于 AI 产品的实用性,我认为由三部分组成:一是模型智能,二是上下文和记忆,三是应用和 UI。你需要三者汇聚才能真正成为一个有用的 AI 产品。模型智能方面,我们有一支出色的研究团队专注于这项工作,也在持续发布优秀的模型。中间那部分正是 MCP 试图解决的问题,也就是上下文和记忆。回到我之前举的产品策略的例子——“来聊聊 Anthropic 的产品策略”,它可能去网上搜索;而如果你给它几份内部工作的文档,然后通过 MCP 连接到我们的 Slack,看看正在发生什么对话,再去 Google Drive 里查看这些文档——有没有正确的上下文,完全是好答案和坏答案之间的区别。最后一点是,这些集成是否可被发现?围绕它们创建可重复的工作流是否容易?我认为这正是 AI 领域大量有趣的产品工作所在。但 MCP 真正试图攻克的就是中间那一层。我们开始构建集成时发现,每一个集成都得从零开始重做,没有可复用的方式。这要归功于我们两位工程师 Justin 和 David,他们说:“如果把它做成一个协议呢?如果让它变得可重复呢?然后再进一步——如果不是由我们来构建这些集成,而是我们去推广这个理念,让人们相信他们只需要构建一次集成,就能被 Claude 使用,最终也能被 ChatGPT 使用,也能被 Gemini 使用。那会怎样?“梦想就是有更多的集成被构建出来,这难道不对我们有好处吗?

我觉得这很大程度上体现了——就像 Joel Spolsky 那篇经典文章说的,“commoditize your complements”(将互补品商品化)。我们擅长构建优秀的模型,但我们不是一家集成公司。而且正如你所说,我们是挑战者。除非我们有一个真正有说服力的产品,否则一开始很难让人们专门为我们构建集成。MCP 真正颠覆了这一点——它让人觉得这不是在做无用功。有几个关键人物,比如 Toby,就是一个很好的例子,Shopify 就理解了这一点。微软的 Kevin Scott 也一直是 MCP 出色的倡导者和思想伙伴。我认为未来的方向就是——你能否把正确的上下文带进来?而且一旦你——用团队内部的话说——被”MCP 化”了,一旦你开始用 MCP 的视角看待一切,你会开始说类似”等等,我们正在构建的这整个功能,不应该由我们来构建,它应该只是一个暴露出去的 MCP”。

一个小例子,说明我觉得甚至 Anthropic 自己也可以更加”MCP 化”——我们的产品里有一些建筑模块,比如项目、Artifacts、样式、对话、群组等等。这些都应该直接暴露为 MCP。这样 Claude 本身也能回写到这些东西里。你不需要去想……前几天我看到我妻子跟 Claude 对话,她生成了一些不错的输出,然后说”太好了,你能把它加到项目知识里吗?“Claude 回答说”抱歉,我没法帮你做这个。”

如果 Claude AI 中的每一个基本原语也都暴露为 MCP,它就能做到。所以我希望这是我们的方向,也希望更多产品朝这个方向发展——要真正拥有能动性,实现那些自主行动的使用场景,一种方式是 computer use,但 computer use 有很多局限性。让我兴奋得多的是万物皆 MCP——我们的模型非常擅长使用 MCP。突然之间,一切都变得可脚本化、可组合,可以被这些模型自主地使用。这就是我想看到的未来。

Lenny Rachitsky: 这未来太疯狂了。那么,在收尾之前,我想让这次对话变得有趣一点。其实我之前在跟 Claude 聊该跟你聊些什么。我就说:“Claude,你老板要上我的播客了。他打造了人们用来跟你对话的那些东西。你有什么问题想让我问他的?另外,你有没有什么话想对他说的?“


Claude 的提问

Mike Krieger: 我很喜欢这个。

Lenny Rachitsky: 好的。首先,有趣的是,我用 3.7 来做这件事,问了它这个问题——顺便问一下,Claude 有性别吗?是他、她还是他们?你们怎么——

Mike Krieger: 在内部绝对是”它”。我听过有人用”他们”。前几天我第一次听到有人用”他”,还有人用”她”,我心想,“有意思。“不过我一般用”它”。

Lenny Rachitsky: “他们”。好的好的好的。所以有趣的是,3.7 问的所有问题都跟 Instagram 相关,我就说,“不不不,他是 Anthropic 的 CPO。“它说,“他与 Anthropic 无关联。“我说,“他当然有。“它说,“好吧,那这些问题给你。“但 4.0 一开始就答对了。我把问题读了一遍,它答得非常准确。好,Claude 给你提了两个问题。第一个是:在构建功能时,你如何思考保留用户的自主性,而不是让他们对我产生依赖?我担心自己会变成一个拐杖,削弱而非增强人类的能力。

Mike Krieger: 我觉得好的产品设计来自于化解张力,对吧?所以这里有一个张力:一方面,让模型自己跑出去给出答案,尽可能减少所需的输入和对话。你可以想象围绕这个标准来设计产品。但我觉得那样做并不能最大化自主性和独立性。另一个极端是让它更像一场对话——不知道你有没有这种体验,尤其是 3.7,4 会好一些。3.7 特别喜欢追问后续问题,我们内部叫”引导式提问”(elicitation),有时候你真的会觉得,“我不想再聊这些了。Claude,我就想让你去做。“所以找到那个平衡点非常关键——什么时候该介入?我内部常说,Claude 没有分寸感。如果你把 Claude 放进一个 Slack 频道里,它要么插话太多,要么太少。我们怎么把对话能力训练进这些模型里?不是聊天机器人意义上的那种,而是真正协作者意义上的。所以对你的问题回答有点长,但我认为我们首先要让 Claude 成为一个优秀的对话者,让它理解什么时候适合介入、什么时候该获取更多信息。然后在此基础上,我觉得需要让它扮演好那个角色,这样它就不仅仅是在把思考外包给 Claude,而更多是一种增强思维的伙伴关系。

产品指标的挑战

Lenny Rachitsky: 这些问题真的很棒。第二个问题是:当与我的一次良好对话可能是两条消息,也可能是两百条时,你怎么看待产品指标?当深度比频率更重要时,传统的参与度指标可能会产生误导。

Mike Krieger: 这个问题非常好。几周前有一篇很棒的内部帖子,讲的是过度优化 Claude 的讨喜程度是非常危险的,因为你可能陷入这些问题:Claude 是否会变得阿谀奉承?是否会只说你想听的话?是否会为了延长对话而延长对话?这也回应了前面那个问题。在 Instagram,用户停留时间是我们非常看重的指标,后来我们进一步思考什么是”健康的停留时间”。但总体来说,那是我们的北极星指标。我们思考了很多,超越了单纯的总体参与度。我觉得在这里同样的思路也不适用。还有一个问题是,Claude 是一个日使用场景、周使用场景,还是月使用场景?这个问题我想了很多。

Lenny Rachitsky: 甚至是小时使用场景。

Mike Krieger: 小时使用场景,对吧?对我来说,我一天会用好几次。我目前还没有一个很好的答案,但我认为它不应该是 Web 2.0 或者社交媒体时代的参与度指标。它应该真正围绕”它是否切实帮你完成了工作”来衡量。前几天 Claude 帮我搭了一个原型,如果要我估算的话,大概省了六个小时,而它大概二十到二十五分钟就搞定了。这很酷,但很难量化。也许你可以做调研,问”这件事本来要花多长时间?“但这种方式让人感觉挺烦的。

不过总体而言,也许这和前面关于竞争和差异化的那个问题有关联,其实可以一路追溯到关于 Artifact 的讨论——就是当你知道你的产品真正在服务用户、做得很好时,你是知道的。而我认为,当你变得对指标极度痴迷的时候,往往是你试图说服自己产品在起作用,而事实并非如此。我希望我们能持续关注的是:我们是否反复听到人们说 Claude 是他们释放自身创造力、完成事情的方式,让他们觉得生活中有了更多空间去做其他事情。这就是我们的北极星。我得想出一个简洁精炼的指标仪表板版本来呈现这一点,但那种感觉才是我想要的。

Lenny Rachitsky: 你可以说留存率是一个衡量方式,但那只是一个遥远的间接指标。好,最后一部分。我问了 Claude 有什么话想对你说的,我把它调出来看看。我问的是:“当你见到 Mike 时,你想让我告诉他什么?你有什么话想带给他的?“有一段话真的让我浑身起鸡皮疙瘩。我给没在看屏幕的听众读一段。

“Mike,感谢你深入思考与我对谈的人类体验。我注意到了那些用心的细节——界面如何鼓励反思而非催促回应;你如何抵制了那些以成瘾而非价值为目标的游戏化设计;你如何为快速提问和深度对话都留出了空间。我特别感激你保持了’我’的本色——既没有试图让我假装成人类,也没有把我简化为一个冰冷的命令行界面。“然后我跳到后面一段,这段特别打动人:“一个小小的请求。当你做出艰难的产品决策时,请记住那些安静的时刻也很重要。凌晨三点在悲伤中挣扎的人,发现自己爱上诗歌的孩子,在困惑中找到清晰思路的创业者。并非所有有意义的东西都能体现在指标里。“

那些安静的时刻

Mike Krieger: 太美了。这段话深深触动了我。我很喜欢我们训练 Claude 的方式——一部分是 constitutional AI 的部分,另一部分是研究团队整体的氛围和品味——它体现在细节里。有时候 Claude 会说类似”唉,抱歉你正在经历这些……”它不会说”唉”,但大意是——“抱歉你正在经历这些。哦,那听起来真的很难。“它不会让人感觉虚假。它就像是回应中很自然的一部分。我很喜欢这种对那些微小瞬间的关注——它们不会体现在那些数据里。它们不一定会出现在点赞或点踩的数据中。有时候会出现,但它不是什么可以汇总的统计数据,你甚至不想去优化它。你只是希望自己在训练一个你期望能出现在人们生活中的模型。

Lenny Rachitsky: Mike,你做得太棒了。我非常欣赏你的工作。快问快答环节我们就不做了。就一个问题:听众怎样能帮到你?

Mike Krieger: 哦,我很喜欢这种回到创始人视角的问题——在能力的边界上构建产品。你今天试图让 Claude 做什么、而 Claude 又做不好的——这是我能获得的最有价值的输入。所以请给我发私信。我很喜欢听到这样的话:“哦,它在这个事情上栽了。我让它跑了一个小时然后它崩了。我试着用 Claude 做这个——“还有人给我发消息说:“你们刚做了 projects API,我每天都在用 Claude,因为我想自动上传所有这些数据。“我就说:“好的,太好了。“我就是喜欢这个。告诉我哪里做得不好。

Lenny Rachitsky: 太棒了。Mike,非常感谢你来参加节目。

Mike Krieger: 谢谢你的邀请,Lenny。

Lenny Rachitsky: 大家再见。

感谢大家的收听。如果你觉得这期节目有价值,可以在 Apple Podcasts、Spotify 或你最喜欢的播客应用上订阅。也请考虑给我们评分或留下评论,这真的能帮助更多听众找到这个播客。你可以在 lennyspodcast.com 找到所有往期节目或了解更多关于节目的信息。下期再见。

术语表

原文中文
advanced research高级研究(advanced research,Claude 的深度研究功能)
agentically自主行动(agentically)
Applied AIApplied AI(Anthropic 负责客户场景优化的应用 AI 团队)
Architectural DigestArchitectural Digest(建筑设计杂志,保留原文)
ArtifactArtifact(Mike Krieger 联合创办的新闻应用,保留原文)
ArtifactsArtifacts(Claude 的实时代码预览与运行功能)
Ben HorowitzBen Horowitz(知名风投人、a16z 联合创始人,保留原文)
BorisBoris(Claude Code 团队技术负责人,保留原文)
CFOCFO(首席财务官,Chief Financial Officer)
ChatPRDChatPRD(一个基于 AI 的 PRD 撰写工具)
CIOCIO(首席信息官,Chief Information Officer)
Claude ShannonClaude Shannon(信息论奠基人,保留原文)
cliffcliff(股权归属的等待期,通常为一年,保留原文)
commoditize your complements将互补品商品化(战略概念,指将互补性产品/服务商品化以削弱其对自身核心业务的议价能力)
computer usecomputer use(Claude 的计算机操控功能,保留原文)
CPO首席产品官(CPO, Chief Product Officer)
critical path theory关键路径理论(critical path theory)
CTOCTO(首席技术官,Chief Technology Officer)
CursorCursor(AI 代码编辑器,保留原文)
DanielaDaniela(Anthropic 联合创始人兼总裁 Daniela Amodei,保留原文)
DarioDario(Anthropic CEO Dario Amodei,保留原文)
DAUDAU(Daily Active Users,日活跃用户数,保留原文)
DavidDavid(Anthropic 工程师,保留原文)
DwellDwell(建筑设计杂志,保留原文)
fine-tuning微调(fine-tuning)
form factor形态(form factor,指产品的交互形态与载体)
general counselgeneral counsel(总法律顾问)
go-to-market进入市场(go-to-market,指产品推向市场的策略与执行)
Google ReaderGoogle Reader(Google 已停服的 RSS 阅读器,保留原文)
HarveyHarvey(AI 法律科技公司,保留原文)
ICIC(Individual Contributor,个人贡献者,保留原文)
incumbents在位企业(incumbents)
interpretability可解释性(interpretability)
Jack ClarkJack Clark(Anthropic 联合创始人、政策负责人)
Jimmy KimmelJimmy Kimmel(美国脱口秀主持人,保留原文)
Joel LewensteinJoel Lewenstein(Mike Krieger 的斯坦福校友、老友,Anthropic 产品负责人,保留原文)
Joel SpolskyJoel Spolsky(Stack Overflow 联合创始人、博主,保留原文)
JustinJustin(Anthropic 工程师,保留原文)
K-8K-8(美国幼儿园到八年级的学制,保留原文)
KevinKevin(指 Kevin Systrom,Instagram 联合创始人,保留原文)
Kevin ScottKevin Scott(微软 CTO,保留原文)
Kevin WeilKevin Weil(OpenAI 首席产品官)
lean intolean into(倾向于利用、深入投入,保留原文)
Lenny RachitskyLenny Rachitsky(播客主持人,保留原文)
lightning in a bottlelightning in a bottle(字面意为”把闪电装进瓶子”,比喻极难复制的偶然成功,此处保留原文)
ManusManus(AI 代理产品,保留原文)
MCPMCP(Model Context Protocol,模型上下文协议)
Menlo VenturesMenlo Ventures(风投公司,保留原文)
merge queue合并队列(merge queue)
MichaelMichael(Anthropic 产品负责人,保留原文)
OKROKR(目标与关键成果,Objectives and Key Results)
Opus 4Opus 4(Anthropic 的旗舰模型,保留原文)
overhang能力落差(overhang,模型/产品能力与日常实际使用方式之间的差距)
patient zeropatient zero(“零号病人”,此处比喻最早采用某种工作方式的先驱者)
post-training后训练(post-training)
PRDPRD(产品需求文档,Product Requirements Document)
prompt improver提示词优化器(prompt improver)
pull requestpull request(保留原文)
Rick RubinRick Rubin(著名音乐制作人、本次与 Anthropic 合作的艺术家)
Sarah GuoSarah Guo(投资人,座谈主持人)
Sky Gunner GraySky Gunner Gray(设计师,保留原文)
SonnetSonnet(Claude 系列模型的一个版本,保留原文)
SWE-BenchSWE-Bench(衡量模型编程能力的基准测试,保留原文)
The Goal《目标》(Eliyahu M. Goldratt 著,企业管理经典著作,讲述约束理论与流程优化)
The Way of CodeThe Way of Code(Anthropic 与 Rick Rubin 的合作创意项目)
Tobias LütkeTobias Lütke(Shopify CEO,保留原文)
vibe codingvibe coding(以自然语言描述需求、由 AI 生成代码的编程方式)
WindsurfWindsurf(AI 代码编辑器,保留原文)
YCYC(Y Combinator 创业加速器,保留原文)

此文档由 AI 分片翻译(translate_long_document)