Anthropic · 2025-05-22

Code with Claude 开幕主题演讲

摘要

Anthropic 首届开发者大会 Code with Claude 的开幕主题演讲完整记录。会上正式发布了 Claude 4 Opus 和 Claude 4 Sonnet 两款旗舰模型,介绍了代码执行工具、文件 API、提示词缓存等平台更新,演示了 Claude Code 与主流 IDE 的深度集成及 SDK,并与 GitHub 宣布深化合作。演讲后半部分围绕 AI 未来走向、安全与可解释性等议题展开对话。

核心概念及解读

Claude 4 系列模型:Anthropic 发布的新一代旗舰大语言模型,包括功能最强的 Opus 4 和兼顾智能与效率的 Sonnet 4,均为混合模型,支持即时响应与深度推理

模型上下文协议 MCP:一种通用连接协议,用于将 AI 代理与外部数据源和系统对接,被 GitHub 等合作伙伴视为关键标准

Claude Code:Anthropic 推出的 AI 编码工具,已正式发布并集成至 VS Code 和 JetBrains 等主流 IDE,同时推出 SDK 供开发者扩展使用

AI 代理能力三要素:情境智能、长期执行和真正的协作,被认为是构建优秀 AI 代理所需的核心能力

可解释性研究:Anthropic 在 AI 安全领域的重点方向,旨在理解模型内部运作机制,确保 AI 系统的透明性与可信赖性

视频基本信息

讲座介绍

本文档详尽记录了 Anthropic 公司举办的首届开发者大会“Code with Claude”的开幕主题演讲内容。在此次活动中,Anthropic 的核心领导团队,包括首席产品官 Mike Krieger 和首席执行官 Dario Amodei,联袂登台,向全球开发者和AI关注者发布了其最新的旗舰模型系列——Claude 4 Opus 和 Claude 4 Sonnet。

演讲不仅深入解析了这两款模型在编码辅助、复杂任务自主执行以及提升开发者生产力方面的显著突破,还详细介绍了 Anthropic API 平台的一系列重要更新,例如新推出的代码执行工具、文件 API 功能,以及大幅增强的提示词缓存机制,旨在为开发者构建更强大、更高效的 AI 应用提供坚实基础。

此外,产品经理 Cat Wu 通过实操演示,生动展示了 Claude Code 工具的最新进展,包括其与主流 IDE(VS Code, JetBrains)的深度集成和全新发布的 SDK。值得一提的是,来自 GitHub 的代表也出席了此次演讲,分享了双方在模型集成、采纳模型上下文协议(MCP)等方面的深化合作,预示着 AI 在软件开发全流程中将扮演更核心的角色。演讲的后半部分,Mike Krieger 与 Dario Amodei 就 AI 技术的未来走向、安全挑战、可解释性研究的紧迫性以及 AI 发展对开发者社群的深远影响等关键议题,进行了一场富有洞察力的对话。

对于希望全面了解 Anthropic 最新技术成果、产品战略蓝图,以及当前人工智能领域,特别是大型语言模型在软件工程和代理应用方面发展前沿的读者,这份完整的演讲脚本无疑提供了一个宝贵且直接的信息窗口。

内容纲要

Code with Claude 开幕主题演讲
├── 一、开场与欢迎 (Mike Krieger, Anthropic CPO)
│   ├── 欢迎来到 Code with Claude,Anthropic 的首届开发者大会
│   ├── Mike Krieger 介绍:CPO,曾联合创办 Instagram 和 Artifact
│   ├── Anthropic 的愿景:构建强大、有用且值得信赖的 AI 系统
│   ├── 对开发者的承诺:赋能开发者,改变工作方式和公司构建方式
│   ├── AI 的作用:增强而非取代人类创造力
│   ├── AI 代理正在改变工作和创新方式
│   ├── 今日议程预览
│   │   ├── 三场技术深度探讨
│   │   ├── 五场来自行业领导者的会议
│   │   └── 专门的答疑时间和研讨会
│   └── 邀请 Anthropic CEO兼联合创始人 Dario Amodei 上台
├── 二、重磅发布:Claude 4 系列模型 (Dario Amodei, Anthropic CEO)
│   ├── 即刻发布 Claude 4 Opus 和 Claude 4 Sonnet
│   ├── Claude 4 Opus 特点:功能最强,专为编码和代理式任务设计,自主完成长时任务能力
│   ├── Claude 4 Sonnet 特点:智能与效率平衡,针对 Sonnet 3.7 反馈进行改进
│   ├── 未来展望:持续改进 Claude 4 系列,定期更新
│   └── 可用性:API 等平台即刻上线(免费套餐仅 Sonnet)
├── 三、API 路线图与 Claude 4 模型详解 (Mike Krieger)
│   ├── Claude 4 构建目标:强大、安全、推动前沿、虚拟协作者
│   ├── Claude 4 Opus 和 Sonnet 4 模型特性:混合模型,即时响应与深度推理
│   │   ├── Opus 4 应用:理解代码库、规划、迁移、重构,复杂代理工作流
│   │   └── Sonnet 4 应用:日常编码、应用开发、结对编程,高容量场景
│   ├── AI 代理的新能力:使用工具(网页搜索)、并行处理、跨会话记忆
│   ├── AI 代理的潜力:转化想象力、助力初创公司、提供战略思维
│   ├── 个人经历:为 Alexa 构建演示,Claude 助力成功
│   ├── AI 发展回顾:从 GitHub Copilot 到 Artifact 的体验
│   ├── 优秀 AI 代理应具备的三大能力
│   │   ├── 情境智能 (Contextual Intelligence)
│   │   ├── 长期执行 (Long-running Execution)
│   │   └── 真正的协作 (Genuine Collaboration)
│   └── 真正的代理能力:智能自主与明确检查点的平衡
├── 四、新 API 功能发布 (Mike Krieger)
│   ├── 代码执行工具 (Code Execution Tool):运行代码、数据分析、迭代优化
│   ├── Claude Code (正式发布)
│   │   ├── 从内部探索项目发展而来,内部广泛使用
│   │   ├── 新功能:集成 VS Code/JetBrains,推出 Claude Code SDK,GitHub 集成示例
│   │   └── “闭环”:Claude Code 帮助构建自身
│   ├── 安全与责任:架构安全检查点、识别机密信息、防注入、透明设计
│   ├── 可解释性 (Interpretability):Dario 的文章,Golden Gate Claude 演示
│   ├── 赋能代理的四大互联能力
│   │   ├── 模型上下文协议 (MCP) API 对接:通用翻译器和连接器
│   │   ├── 网页搜索 (Web Search):实时访问当前信息
│   │   ├── 文件 API (Files API):简化文档访问存储,支持记忆功能
│   │   └── 提示词缓存 (Prompt Caching) 增强:推出1小时 TTL
│   ├── 未来路线图三大支柱:代理工具、上下文集成、高效扩展
│   └── 鼓励开发者反馈
├── 五、Claude Code 演示 (Cat Wu, Claude Code 产品经理)
│   ├── Claude Code 正式发布,集成新 Claude 4 模型
│   ├── Claude Code 新特性回顾:VS Code/JetBrains 集成, SDK, GitHub 集成
│   ├── 演示场景:为 Excalidraw 添加表格组件
│   │   ├── 任务描述与 Claude Code 工作流程(创建清单、探索代码、内联差异)
│   │   ├── 结果展示:90分钟完成任务,功能实现与验证
│   │   └── 后续操作:通过 GitHub CLI 创建 PR,在 PR 中通过 @Claude 更新文档 (SDK 应用)
│   └── 可用性说明:GitHub Actions 版 (beta), IDE 扩展 (beta), 新模型已可用
├── 六、Anthropic 平台介绍 (Michael Gershenhober, API 平台产品负责人)
│   ├── Anthropic 平台:构建 AI 应用和代理的完整工具包
│   ├── 客户应用案例:TurboTax, Novo Nordisk, 编码助手
│   ├── 平台基础:模型推理服务,提示词缓存(TTL 延长至1小时)
│   ├── 构建代理的模块:文件 API, 代码执行工具, 网页搜索, 引用功能
│   ├── 连接代理与数据/系统:模型上下文协议 (MCP)
│   ├── API 的可组合性:Claude 作为架构师协调工具
│   ├── 开发者工具:提示词改进器, 评估, 可观察性功能, Cookbook
│   └── 核心目标:帮助开发者更快交付更好的 AI
├── 七、与 GitHub 的合作 (Mario Rodriguez, GitHub)
│   ├── GitHub 核心信念:开发者选择与最佳体验
│   ├── 合作回顾:从 VS Code 支持 Claude Sonnet 3.5 开始
│   ├── 新进展:GitHub Copilot 即刻支持 Claude Sonnet 4 和 Opus 4
│   ├── 代码的未来:VS Code 代理模式,GitHub Copilot 编码代理(由 Claude Sonnet 驱动)
│   ├── 选择 Claude Sonnet 的原因:编码知识、问题解决、指令遵循、提示词缓存
│   ├── 采纳 MCP:与 Anthropic 合作,视 MCP 为关键协议
│   ├── GitHub 平台转型:从 AI 注入到 AI 原生
│   └── 新的合作伙伴关系:集成 Claude Code 及 SDK 到 GitHub 代理平台
├── 八、问答与炉边谈话 (Mike Krieger & Dario Amodei)
│   ├── 对 Claude 4 最兴奋之处:自主性提升,网络安全与生物医药应用
│   ├── Claude 4 与《充满爱意的机器》愿景的契合
│   ├── 使用 Claude 4 的突破性时刻:解决复杂性能问题,模型能力的“炼金术”
│   ├── AI 对软件工程工作的影响:代理管理,人类负责质量控制
│   ├── 大模型 vs. 小架构,预训练 vs. 后训练:两者皆有进步,多重指数增长
│   ├── 模型记忆功能的重要性:类似人类笔记,交错推理与行动
│   ├── “力争上游”:安全与能力协同,MCP 的快速标准化
│   ├── 可解释性与机器智能的共同发展:AI 为神经科学提供启示
│   ├── 预测:2026年出现首个一人十亿美元公司
│   ├── 对开发者的建议:“保持雄心壮志”,将创业视为“投机性执行”
│   └── 对未来一年/五年的期待:编码领域巨变,生物医药领域突破
└── 九、结束语 (Mike Krieger)
    ├── 感谢所有参与者
    └── 特别鸣谢:现场与会者获三个月 Max 20X 免费使用权

Code with Claude 开幕主题演讲

一、开场与欢迎 (Mike Krieger, Anthropic CPO)

Mike Krieger: 各位早上好,欢迎来到 Code with Claude,Anthropic 的首届开发者大会。我很高兴看到大家来到这里。我是 Mike Krieger,Anthropic 的首席产品官。我刚刚在这里工作满一年,在人工智能领域,这差不多相当于三年了,但我过得非常愉快。在此之前,我联合创办了 Instagram,以及一个名为 Artifact 的 AI 新闻应用,那是我第一次开始接触这些 AI 技术的地方。我加入 Anthropic 是因为其创始人的愿景——构建既强大、有用又值得信赖的 AI 系统。今天,这个愿景包含了一些更直接和具体的东西:致力于赋能像你们这样的开发者,去改变工作的完成方式和公司的构建方式。这种转变是为了增强而非取代人类的创造力。

AI 代理正在改变我们的工作方式和创新方式。它们通过消除那些限制了人类生产力的瓶颈,来扩展我们所能构建的东西。今天,你们将从我们的产品和工程负责人以及我们的一些客户那里听到,他们是如何推动前沿发展的。

为了让大家了解今天在 Code with Claude 能期待些什么:你们可以参加三场技术深度探讨,这将改变你们使用 Claude 构建的方式;还有五场来自行业领导者的会议,他们已经在使用 Anthropic 的平台重塑各自的行业;此外还有专门的答疑时间和研讨会,提供实践经验。但在我们讨论一些我为你们准备的激动人心的新 API 功能之前,我想邀请一位嘉宾上台。请欢迎我们的首席执行官兼联合创始人,Dario Amodei!

二、重磅发布:Claude 4 系列模型 (Dario Amodei, Anthropic CEO)

Dario Amodei: 大家好。我 20 分钟后会回来参加炉边谈话,所以这次我会非常简短。我不是一个喜欢大肆宣传的人,所以我就直截了当地宣布:从此刻起,我们将在所有相关的产品服务上发布 Claude 4 Opus 和 Claude 4 Sonnet。

我知道我们已经有一段时间没有 Opus 模型了,所以提醒一下,Opus 是功能最强、最智能的模型,而 Sonnet 则是大家熟悉并喜爱的中端模型,在过去大约一年里一直在使用它,它在智能和效率之间取得了很好的平衡。我们努力设计这两款模型,使其在不同用例和场景下都能发挥最佳效果。所以,我会非常简要地谈谈这两者,然后交还给 Mike,之后我会回来参加炉边谈话。

首先,我们来谈谈 Opus。它专为编码和代理式任务(agentic tasks)设计。它在 SweetBench、TerminalBench 以及其他类似基准测试中达到了顶尖水平。但我认为,在很多方面,正如我们经常发现的那样,对于大型模型而言,基准测试并不能完全体现其价值。我们预览过 Opus 的客户发现,它能够自主完成那些通常需要人类花费六到七个小时的任务。在 Anthropic 内部,我看到一些我们最高级的工程师都对它能如此大幅度提高他们的生产力感到惊讶。而且,这是我第一次,当我看到 Claude 编写的内部摘要、文档和想法时,过去质量通常不错,但你总能分辨出它不是人类写的,因为它有那种特定的风格。这次是第一次我真的被骗到了,我快速扫过名字,以为是指团队里的某个人,然后才发现,不,名字是 Claude。所以我认为 Opus 有很多潜力。

关于 Sonnet,我认为对许多人来说,这将是对 Sonnet 3.7 的一个严格改进,在相同的成本下提供了更好的智能性。许多客户正在直接从一个版本切换到另一个。它在某些编码基准测试中的表现实际上和 Opus 一样好,但我认为它更精简,目标更明确。我认为它特别解决了我们收到的关于 Sonnet 3.7 的一些反馈,比如“过度热情”(overeagerness),即倾向于做超出你要求的事情,这与早期的“懒惰”问题正好相反,以及一些奖励机制被“钻空子”(reward hacking)的问题。我们的许多客户已经试用过它,并认为它是对 3.7 版本的一次强有力的升级。例如,我们著名的客户 Cursor 一直在试用它,并表示这是一款顶尖的编码模型,是复杂代码库理解能力的一次飞跃,我们预计开发者将在各方面体验到能力的提升。一位亲自体验过该模型的客户说:“这TMD是什么模型?”(“What the f is this model?")它真的,真的很了不起。

所以,细节我会留给其他人来讲。但最后我想说的是,我们将继续改进 Claude 4 系列模型。我们预计会定期发布,也许是次要版本更新,理想情况下甚至比我们为 Sonnet 所做的更新更频繁。它现在应该已经上线了,你们应该可以在几乎所有平台上试用,除了免费套餐目前只有 Sonnet,但所有其他平台,所有 API 平台,两者都有。所以,真心希望你们喜欢这款模型,现在我把时间交还给 Mike。

三、API 路线图与 Claude 4 模型详解 (Mike Krieger)

Mike Krieger: 谢谢 Dario。两款新模型,大家是第一批听到的。正如他提到的,我们稍后会在议程结束时再次见到 Dario,进行问答环节,届时我会问一些你们现在可能也在思考的问题。我个人非常期待我们的客户试用 Claude Opus 4 和 Sonnet 4。我们的团队非常喜欢使用它们,我们相信你们也会喜欢。

既然 Dario 已经分享了我们关于模型的重要消息,接下来我将更详细地谈谈我们的 API 路线图。我们构建 Claude 4 的目标从一开始就很明确:我们希望构建强大的 AI,能够安全地引入新的模型能力,继续推动编码和 AI 代理的前沿,并确保 Claude 成为你们的虚拟协作者。这正是我们通过 Opus 4 和 Sonnet 4 实现的。

与 Sonnet 3.7 类似,两款 Claude 4 模型都是我们所说的混合模型,拥有两种模式:近乎即时的响应和在需要更深度推理时的扩展思考模式。令我惊讶的是,即使在非编码和非数学用例中,也有很多客户使用深度推理模式。

Opus 4 非常擅长理解你们的代码库并规划新增功能。它在从迁移到代码重构等各种任务中都极其高效和准确。如果你最复杂的代理式工作流遇到了其他模型的瓶颈,它也是正确的选择。我相信你们会对 Opus 4 的能力感到惊喜。

与此同时,Sonnet 4 在日常编码任务、应用开发和结对编程方面表现出色。它也非常适合高容量的使用场景,完美地平衡了效率与性能。可以把它看作是你永远在线的编码伙伴。

正如 Dario 提到的,这两款模型今天都已在 Claude 和 Claude Code 以及 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上线。这些模型为构建 AI 代理带来了关键的新能力:它们可以在推理过程中使用像网页搜索这样的工具,这是一种新功能;可以并行处理多个工具;并且当被授予访问本地文件的权限时,它们实际上可以跨会话保持记忆,以便随时间积累知识。稍后我也会和 Dario 聊聊这个记忆功能。这些不仅仅是渐进式的改进,它们从根本上改变了 AI 代理的可能性。

我知道“代理”这个词 आजकल用得很多。我个人有个笑话,就是在 Anthropic 开会时,我们能坚持多少分钟不提“代理”这个词。我好像坚持了 17 分钟左右。但今天,我们要关注的是超越炒作的代理。我认为真正关键的是,有了正确的底层模型和正确的底层平台工具,AI 代理实际上可以以前所未有的规模将人类的想象力转化为切实的现实。

这对初创公司和像你们这样的开发者来说尤其重要。我自己也曾是创始人。回想 Instagram 的早期,我们那个以小团队著称的团队不得不做出许多非常痛苦的“非此即彼”的决定:我们要么探索为产品添加视频功能,要么专注于我们的核心创造力;要么专注于我们的移动应用,最初只有一个移动应用,要么扩展到网页端。一切都是非常单一的轨道。有了 AI 代理,初创公司现在可以并行进行实验,从用户那里学习,并以前所未有的速度构建产品,这是我从你们许多人那里听到的。AI 代理可以为你们这些初创公司的创始人提供那种通常来自高效的首席财务官(我看到我们的 CFO 坐在前排)或产品负责人的战略思维,即使你们自己还在努力达到那些关键职位,还没有准备好进行这些招聘,但暂时可以聘请 Claude 来担任其中一些角色。

这种转变不再是理论上的。我每天在我的角色和工作中都能看到它。我个人花很多时间与 Claude 相处,可能比和我另一半相处的时间还多,这没关系。事实上,在我加入 Anthropic 后不久,我与亚马逊的 Alexa 团队进行了一次会谈,他们非常渴望了解 Claude 如何能成为他们未来语音助手愿景的一部分。起初,我的团队计划展示一些幻灯片和谈话要点,就像我们为任何其他客户制定的计划一样。但在会议前的几天里,我一直有一个挥之不去的想法:为什么不直接用 Claude 来构建一个实际操作的演示呢?我认为这会让对话更有趣,并生动地展现 Claude 和 Alexa 功能结合的潜力。挑战在于,在无法访问 Alexa 实际代码库的情况下构建这个演示。我们需要创建一个核心 Alexa 功能的原型,同时还要集成 Claude 的能力,所有这些都要在一个紧张的一周时间内完成,实际上是一个紧张的周末时间。Claude 是我们能在如此有限的时间内完成这项任务的唯一原因。我们这个由三人组成、分布在旧金山和伦敦的团队,构建了一个功能原型,展示了其潜力。多亏了 Claude,这次努力取得了成功。我甚至还写了一些代码,你可以把工程师从工程CTO的职位上拿掉,但你无法从我身上拿掉它,我还为这个项目做了很多前端开发工作。当然,在那次初次会议之后,这个合作项目还投入了更多的工作,但 Claude 现在是亚马逊用于今年早些时候推出并正在推广的 Alexa Plus 的模型之一。我认为,多亏了 Claude,我们才真正展示了其潜力。

我关注这种向 AI 的演进已经很多年了。当我在 2021 年初次获得 GitHub Copilot 的早期访问演示时,我称之为“我所见过的机器学习最令人震撼的应用”。在那个年代,2020 年,我们称之为机器学习而不是 AI,那已经是几代人之前的事了。但这种代理式 AI 的早期雏形所蕴含的潜力非常清晰。去年夏天,当我们推出 Artifact 时,我有了更强烈的感觉。我可以描述我想要的一个迷你应用或可视化效果,点击发送,去喝杯咖啡,回来时 Claude 已经构建出了我想象的东西。在接下来的一年里,情况变得很清楚:我们不仅仅是在构建更好的工具,我们正在创造真正的协作者。

Anthropic 的经济研究证实了我的亲身经历:在大多数用例中,AI 正在增强人们的工作,而不是取代它。它更多地是关于任务,而不是整个角色。这与你最好的同事所产生的影响相似:你共事过的最有才华的人不仅仅是执行任务,他们理解你的背景,他们从经验中学习,他们知道何时应该主动采取行动,何时只需要核对一下。

优秀的 AI 代理,就像你们可以在我们平台上构建的那样,应该在三个能力方面表现出色: 它们应该具备情境智能 (Contextual Intelligence),理解你和你组织的独特背景,并从经验中不断学习,不仅仅是遵循指令,而是理解“为什么”和“如何做”。这意味着模型会随着时间的推移学习和个性化,不仅获得情境记忆,还获得片段记忆和组织记忆。我总是这样对团队说:你与代理进行的第 100 个任务应该比第一个任务好得多,就像你与一名员工相处的第 100 天应该比第一天好得多一样,前提是你采取了正确的培训措施。 其次,长期执行 (Long-running Execution),无需持续管理即可处理复杂的多小时任务,并根据需要与其他代理和人类协调。所以你有了上下文,然后你可以在更长的时间内执行它。 第三,真正的协作 (Genuine Collaboration),进行有意义的对话,适应你的工作方式,并为其行动提供透明的推理。

这里的关键洞察是,真正的代理能力并不意味着不受控制的行动,自主性也不意味着随心所欲。它意味着智能的自主性,与明确的检查点相平衡,在关键决策上保持人工监督,同时将那些通常消耗我们大量时间的小决策委托出去。

四、新 API 功能发布 (Mike Krieger)

Mike Krieger: 现在,让我们来谈谈我们为满足这三个需求而宣布的功能。我们将从我们新的代码执行工具开始,该工具今天已在 Anthropic API 上线。代码执行工具为 Claude 提供了一个可以运行代码的环境,使其能够充当数据分析师,将原始数据转化为可视化洞察。Claude 不再仅仅是编写代码,现在它可以执行代码,看到结果,并迭代地优化结果和代码,以更好地突出数据中的模式。这里,我们将展示 Claude 分析销售数据,以了解特定类型产品的表现。Claude 可以加载您的数据集,清理数据,生成探索性图表,并实时深入研究异常情况。作为一个以数据可视化分析师身份开始职业生涯的人,这让我深有感触。

当与 Claude 4 模型的智能相结合时,代码执行工具的功能更加强大。这就是我们所说的代理能力——接受复杂任务并将其完成的能力。这些是首批能够处理数小时任务的模型,当您与它们并肩工作时,可以为您节省半天甚至一整天的时间,不仅仅是编写代码片段,而是重构整个代码库或从头开始实现复杂功能。为了让大家了解我们所取得的进展:在我刚开始的时候,你可能只能将几分钟的工作委派给 Cloud3;而 Cloud3 则可以自主工作大约 45 分钟而不会中断思路;现在,我们正在突破 Claude 可以自主承担数小时工作的界限。正如你们之前看到的,乐天(Rakuten)提到他们让 Claude 独立运行了长达七个小时,并保持了持续的性能。它可以做到不丢失思路,特别是当它能够管理自己的内存和待办事项列表时。

我们已经将这种能力集成到你们的工作环境中。希望大家都熟悉 Claude Code,这是我们几个月前在研究预览版中推出的代理式编码工具。我们今天将 Claude Code 转为正式版。这实际上最初是由我们的一位技术负责人 Boris 发起的一个内部探索性项目——这是他的发布公告——他希望 Claude 能帮助他们直接在终端中编码。早期我们内部还称之为 Claude CLI。我认为我们一些最好的创新,比如 Artifact 和 Claude Code,确实来自于这种自下而上的实验。这是我们在 Anthropic 努力营造的文化的一部分。在内部推出后仅两天,我们的使用量图表就垂直上升了。人们谈论产品市场契合度,我们经常谈论“产品 Anthropic 契合度”——也就是说,内部员工是否在“吃自己的狗粮”,他们是否在使用它。如今,大多数 Anthropic 员工在从日常编码到大规模迁移的各种工作中都依赖它。我看到一些我们最高级的编码员在多个终端窗口中运行多个 Claude Code 实例。他们正在从仅仅是工程师转变为管理多个自主代理的管理者,处理从简单编码任务到跨多个代码库的复杂全栈开发项目。我意识到我正在使用 Claude Code,我会在我们的前端仓库运行一个,在后端仓库运行一个,然后我们的一位 Claude Code 工程师说:“你用错了,直接在根目录运行,Claude 能搞清楚它要在所有地方都能工作。”它确实做得很漂亮,这已经改变了我使用它的方式。绝大多数 Anthropic 开发者每天都在使用 Claude Code。

为了让大家了解它对我们团队的影响:它将我们的技术入职时间——让工程师熟悉上手的时间——从两到三周缩短到了两到三天。我确实看到它能如何帮助你快速建立对代码库的理解,尤其是一个像我们这样的大型单体代码库,因为它非常擅长导航代码。

今天,我们将 Claude Code 的功能直接引入 VS Code 和 JetBrains,并在编辑器中内置了完整的差异视图和代理式工作流管理。我们还推出了 Claude Code SDK,这样你就可以在与 Claude Code 相同的核心代理之上构建自己的应用程序。作为 SDK 可能性的一个例子,你现在可以在 GitHub 中运行 Claude Code。你可以在 GitHub 的拉取请求或问题中标记 Claude,它会响应审阅者的反馈、修改代码或实现测试覆盖。

我们还专注于我们称之为“闭环”的工作,所以 Claude Code 现在正在帮助构建自身,并且随着它加速自身的发展,它展示了自我改进的力量。Claude Code 如何赋能像你们这样的开发者完成更多工作,这真是令人难以置信。回想我构建 Instagram 的时候,在被收购之前,我们的团队大约有两到六名工程师,我们支持两个移动平台。如果我们拥有像这样的代理式编码产品,我们本可以在几天而不是几周内制作出原型。

我们已经谈了很多关于构建高性能、可靠代理的话题。现在,没有责任的代理是危险的,尤其是当你在谈论像我们的 Claude Code 产品这样能够自我改进的东西时,在具有严格安全和合规要求的企业环境中更是如此。我认为代理的广泛采用将需要提高模型在保密性、决策制定和协调方面的辨别力和判断力。所以我们的模型在这方面已经做得很好,但我们将继续改进,确保它们知道什么是机密的,知道该透露什么,并且你可以在生产环境中信任它们。这就是为什么我们围绕模型构建的每一个功能都融入了我们称之为“架构安全检查点和控制”的机制,而不是放任代理自行其是,在重大决策上暂停,而用户可以定义哪些操作需要人工批准,我们也已将其内置到模型上下文协议中。它们对漏洞利用具有鲁棒性,我们对它们进行了测试,我们围绕诸如提示词注入之类的问题进行了大量实战检验。它们在设计上也是透明的,具有清晰的反馈循环和可观察的行为。当你信任你的代理自主行动时,你就可以专注于创新而不是风险缓解。

我们投入巨资的另一个领域是可解释性——理解 AI 模型内部到底发生了什么的科学。Dario 最近写到理解我们 AI 系统实际工作原理的紧迫性。如果你读过他的文章《可解释性的紧迫性》,他称之为模型智能与可解释性之间的竞赛。实际上,我们希望能够给我们的 AI 做一次“核磁共振”,看看它在想什么,并发现任何潜在问题,比如欺骗,这样我们就可以引导它走向正确的方向。当我加入 Anthropic 时,我对我们的研究管线如何直接为我们的产品提供动力感到兴奋。以 Golden Gate Claude 为例,那是我在 Anthropic 的第二周推动发布的,因为它感觉不仅仅是一篇好的研究论文,它会是一个极好的演示,一个关于可解释性如何运作的直观展示。当我们放大了 Claude 神经网络内部的金门大桥特征时,我们突然看到了操纵 AI 内部运作意味着什么,在这个案例中,是让它深深迷恋我们最喜欢的桥。我们用来创建 Golden Gate Claude 的技术,未来可能帮助我们减少模型有害行为或提高模型在特定领域的性能。随着我们开始在公司各处部署虚拟协作者,我希望我们可以依靠像可解释性和可审计性这样的技术作为他们工作的基石,这样我们就可以大规模地了解他们在做什么。这些是能够帮助我们将抽象研究转化为实际产品能力的突破。

正如你们之前看到的,我们现在已经达到了 AI 模型可以处理数小时自主工作的程度,而且这种能力每隔几个月就会翻一番。但是,仅靠原始模型能力本身并不足以在实践中解锁这些多小时的工作流。代理还需要访问现实世界的信息,连接到你现有的系统,以及经济高效的扩展能力。

这就是为什么我们要推出四个相互关联的功能,以帮助为代理提供上下文并帮助它们扩展。所以首先,从今天开始,你现在可以直接通过我们的 API 连接模型上下文协议 (MCP)。MCP 已经被微软、谷歌、OpenAI、Block、Atlassian、Zapier、Linear 等许多公司使用。这是我们开始创建 MCP 协议并将其开源时的梦想清单——也许有一天我们会让这些公司采用它。还不到一年,它们都已经加入了。MCP 充当 AI 代理的通用翻译器和连接器,能够无缝连接到你现有的系统,而无需每次都编写自定义的集成。这为可能成为“代理经济”的未来奠定了基础,在这个经济中,专门的代理可以访问它们所需的数据和工具来应对复杂的挑战。

其次,网页搜索为 Claude 提供了对当前信息的实时访问。这是一种智能数据增强功能,允许 Claude 推理当前事件、市场趋势和新兴技术。当与 MCP 功能结合使用时,它尤其强大。你可以想象在一个内部知识源中搜索,得出一些新的见解,然后去网上搜索以将其置于上下文中。

第三,文件 API 今天已在 API 中可用,以简化开发人员访问和存储文档的方式,从而简化开发工作流程。我们还发布了一个 Cookbook,以帮助开发人员将我提到的记忆功能直接构建到他们的应用程序中。这些新的 Claude 4 模型在我们称之为自我管理记忆方面表现出显著的改进,因此你会发现这种方法出奇地有效,并且可以通过使用文件 API 以非常小的额外开销来实现,正如我们在那个 Cookbook 中演示的那样。你会看到 Claude 读取和写入这些记忆文件,并随时间保持上下文。

最后,能力需要实用且可扩展。我们希望确保我们能与您一起成长,从原型到生产,再到数百万用户,以便您能够控制成本并提高效率。我们希望 Claude 在您成功并达到大规模时为您服务。这就是为什么提示词缓存是我们最受请求的功能之一,也是我们最受欢迎的 API 功能之一。通过提示词缓存,客户可以为 Claude 提供更多上下文、背景知识和示例输出,从而将长提示词的成本降低高达 90%,延迟降低高达 85%。现在,我交谈过的每一位客户对于提示词缓存都有一个非常明确的要求,我们今天就实现了,那就是更长的生存时间 (TTL)。因此,除了我们开箱即用的 5 分钟 TTL 之外,今天我们还推出了高级版的 1 小时 TTL,这是 12 倍的改进,极大地降低了长时间运行的代理工作流的成本。这种基础设施使得代理应用程序能够大规模可行。

这些能力在相互叠加时会产生复合效应。当我们考虑在 API 中构建功能时,我们不把它们看作是孤立的,而是思考它们如何相互补充,如何形成一个有凝聚力的整体。Claude 现在可以执行代码,理解你的系统,访问网络上的当前信息,为即使是长时间运行的任务也能在完整上下文中操作的代理奠定了基础。并且它可以使用文件 API 在整个执行过程中保持记忆和上下文。

你们今天早上看到的一切都仅仅是个开始。我们的路线图将继续建立在三个支柱之上: 第一个是行业领先的代理式工具和应用,这样你就可以自主使用 Claude 来处理数小时的工作,知道它可以使用代码执行工具在其自身环境中执行代码。Claude Code 现在已正式可用,与 VS Code 和 JetBrains 集成,因此你可以使用广泛的 SDK 来构建自己的自定义工作流,包括在 GitHub 内部。 我们将继续推动在 API 中集成更多上下文。我们今天的更新允许你通过模型上下文协议引入这些上下文,以及基于来自网络的实时更新进行构建,并通过 MCP 在任何数据源和 API 中的任何内容上执行复杂的工作流。 最后是高效扩展。从今天起,你可以使用扩展的 1 小时提示词缓存来优化大规模性能和成本。

每一次进步都建立在我们今天讨论的基础上,以 Claude 4 为基础:Opus 4 用于你最复杂的代理式工作流,Sonnet 4 作为你日常智能的驱动力。我们正在催生一类新的应用:代码执行扩展了 Claude 可以完成的工作时长;MCP 扩展了 Claude 可以检索的综合信息;我们的平台更新确保我们的模型在每花费一美元的情况下都变得越来越高效。

我们正在积极地向像你们这样的开发者学习,了解你们如何使用这些工具,所以请继续提供反馈。我非常喜欢 API 反馈,如果你们不了解我的这一点的话,绝对可以联系我。我喜欢听取反馈,了解我们如何能继续为像你们这样的开发者改进 API。MCP 就是一个完美的例子:它最初是一个内部想法,然后逐步发展到社区实验,现在它是一个核心平台功能。如果你看了微软 Build 大会的主题演讲,他们正在将 MCP 构建到他们许多实际的基础设施中。我们希望创建一个 AI 代理的生态系统,在这个生态系统中,我们拥有反馈循环,使它们对你们真正有用。

今天,我们站在一个重要的门槛上。我们最新的模型与我们发布的所有最新工具相结合,正在播下新时代的种子。未来不是关于 AI 完成人类的工作,而是关于 AI 帮助人类完成超乎常人的工作。我非常兴奋能与你们共同构建这个愿景,我迫不及待地想看到它为你们所有公司赋能的应用类型。为了向你们展示可能性,接下来我将把麦克风交给来自我们产品团队的 Cat Wu,她将演示如何在 Claude Code 内部访问我们的新模型,从而改变你们的开发工作流程,帮助你们在一次对话中完成复杂的多天任务。再次欢迎来到 Code with Claude,再次感谢,希望你们今天余下的时间过得愉快。

五、Claude Code 演示 (Cat Wu, Claude Code 产品经理)

Cat Wu: 大家好,我是 Cat Wu,Claude Code 的产品经理。正如 Mike 提到的,我们最近在研究预览版中推出了我们的代理编码工具 Claude Code。Claude Code 让开发者可以直接在他们的工作环境中——也就是他们的终端里——接触到 Anthropic 模型的原始力量。从今天起,Claude Code 正式可用。

在整个计算历史中,我们不断向更高层次的抽象迈进,从机器码到汇编语言,再到高级语言。随着 Claude Code 和日益强大的代理式模型的发展,我们正在见证又一次进步。开发者正在从请求特定功能转向描述整个特性,引导 AI 并改变软件的构建方式。今天,我们将新的 Claude 4 模型引入 Claude Code,使其成为一个更强大、更有能力的编码代理。

除了新模型之外,我们还在 Claude Code 中发布了几个新功能,专注于使其成为一个在整个开发生命周期中更通用的编码代理。首先,Claude Code 现在与 VS Code 和 JetBrains 集成,将其带到数百万开发者熟悉的界面中。当 Claude Code 工作时,你现在可以在编辑器中内联查看其建议的更改。我们还发布了 Claude Code SDK,允许开发者在你的应用程序和工作流中使用 Claude Code 作为构建块。SDK 的可能性是无限的。为了展示这些可能性,我们发布了一个 SDK 实际应用的开源示例:GitHub 中的 Claude Code。你可以直接在 GitHub 的拉取请求和问题中标记 Claude,Claude Code 将会响应审阅者的反馈,修复 CI 错误,并添加新功能。

通过这些新增功能,Claude Code 现在可以在你工作的任何地方运行,充当所有界面上的虚拟队友:在终端中进行深度开发工作,在像 GitHub 这样的远程环境中进行基于 SDK 构建的自动化工作流,以及在 IDE 中进行无缝审查。总而言之,Claude Code 是一个多功能的编码代理,无论你身在何处,都能加速开发,无论你是直接与 Claude Code 交互工作,还是异步使用它。

太棒了,我最喜欢的部分来了。让我们在演示中看看这些更新是什么样子的。我将展示 Claude Code 在一个你们许多人都熟悉的产品中处理一个真实的开发任务。我们将使用 Excalidraw,一个开源的白板工具,并要求 Claude Code 实现他们最受期待的功能之一:添加一个表格组件。你们中有多少人收到过那种已经在你们待办事项列表中放了很久的功能请求,你们知道用户会喜欢它,但就是没有时间去构建?这就是我们可以用 Claude Code 更快处理的那种任务。

通常对于这样的任务,我会让 Claude 开始工作,然后去冲杯咖啡,处理一下邮件和 Slack,等输出结果准备好后再回来。但我今天和大家只有 10 分钟的时间,所以让我们展示一个加速但真实的工作流程。

这是在 VS Code 中打开的 Excalidraw 仓库。让我们写一个提示来告诉 Claude Code 我们的需求。我们将要求 Claude Code 添加一个支持自定义维度、拖拽调整大小以及 Excalidraw 所有其他样式选项的表格组件。

激动人心的部分来了:Claude Code 首先会创建一个待办事项列表,说明它将如何处理整个问题。然后我们可以看到 Claude Code 开始探索代码库,从我们已经为上下文打开的文件开始。IDE 集成最棒的部分是能够在编辑器中内联查看差异。这样你就可以看到周围的代码以获得更多上下文,从而可以自信地接受更改或向 Claude Code 提供反馈。我们可以在 Claude Code 工作时逐个批准编辑,或者我们可以让 Claude Code 在自动接受模式下继续进行编辑,让我们在可见性和控制之间取得平衡。

在这个演示中,我们赋予了 Claude Code 编辑、运行 lint 和测试以及创建 PR 的能力。所以 Claude Code 在这个任务上工作了 90 分钟。我希望能把整个过程都展示给你们,但我们需要加快速度。你们现在看到的是 Claude Code 未经编辑的实际输出。一个半小时后,它完成了。它添加了表格功能,编写了测试来验证更改,并进行了迭代,直到 lint 和测试通过。这通常需要我们理解代码库架构以及其他每个工具是如何实现的。在这种情况下,Claude Code 实际上为我们完成了数小时的工作。相当令人印象深刻,对吧?

现在,让我们在本地运行 Excalidraw,确保该功能按预期工作。让我们通过创建一个三行三列的表格来检查我们是否拥有一个功能齐全的表格组件。很好,我们可以重新定位表格,可以拖动调整大小,可以更改边框图案和颜色,还可以在单元格中添加文本。这也与 Excalidraw 的现有用户界面集成。所有这些都是通过 Claude Code 中的一个提示完成的。

接下来,我们将要求 Claude Code 使用 GitHub CLI 为此分支创建一个拉取请求。酷,让我们点进去。现在我们有了我们的拉取请求。这就是 Claude Code SDK 发挥作用的地方。它允许我们在 Claude Code 之上构建自定义工作流,包括通过 GitHub Actions。对于这个 PR,我想更新文档。我们不必回到 IDE,只需标记 @Claude 并要求它为我们更新文档即可。在后台,这会触发一个运行 Claude Code 的 GitHub Action。Claude 在 PR 上评论其工作进展,并在完成后为我们创建一个提交。你也可以在 GitHub issue 上标记 @Claude,它也会为你创建一个 PR。

通过此功能,Claude Code 可以在用户已经工作的更多界面上为他们提供服务。开发者不再需要在本地环境中切换上下文,甚至可以在移动中启动运行。所有这些都构建在 Claude Code SDK 之上。除了支持 GitHub Actions,我们还看到客户使用 SDK 完成了令人难以置信的事情,包括并行运行多个 Claude Code 实例来修复不稳定的测试、提高测试覆盖率,甚至进行值班故障排除。

酷,看起来 Action 已经运行完毕,我们可以看到 Claude Code 更新了它的评论,让我们知道它做了什么。让我们点击进入提交,看看 Claude 的更改。它在我们的 PR 中为我们更新了文档并提交了,而我们无需做任何事情。

在短短 10 分钟内,你们已经看到 Claude Code 处理了一个复杂的任务,这个任务如果手动实现可能需要几天时间,它编写了数百行代码,与 Excalidraw 的现有功能无缝集成,并为我们完成了数小时的工作。所有这些今天都可供你们使用。由我们的 SDK 支持的 GitHub Actions 中的 Claude Code 已进入 Beta 版,你们可以通过在屏幕上运行一个简单的命令来安装它。VS Code 和 JetBrains IDE 扩展也已进入 Beta 版,只需在你的 IDE 中运行 claude 即可安装。最后但同样重要的是,我们最新的模型 Claude Opus 4 和 Claude Sonnet 4 今天已对 Claude Code 用户开放。

Claude Code 展示了当 AI 能够真正理解并使用代码来构建强大的代理时,一切皆有可能,无论是编码助手还是任何领域的应用程序。你需要的不仅仅是智能模型,你还需要正确的平台。请欢迎 Michael Gershenhober,他将向你们展示我们究竟是如何实现这一点的。

六、Anthropic 平台介绍 (Michael Gershenhober, API 平台产品负责人)

Michael Gershenhober: 非常感谢 Cat,大家早上好。感谢你们今天来到这里。我是 Michael Gershenhober,Anthropic API 平台的产品负责人。

现场有多少人已经在使用 AI 生成的代码来编写应用程序了?又有多少人将 AI 作为其核心功能交付的一部分?我想也是,几乎所有人。

世界上大多数应用程序都将由那些已经在努力解决世界难题的人们构建。无论你是通过了白板面试,还是刚刚开始接触,我们现在都是软件工程师了。但编写代码仅仅是个开始。你需要更快地构建稳定、安全且可维护的 AI 应用程序。这就是我们构建 Anthropic 平台的原因——一个专为构建最先进 AI 应用程序和代理而设计的完整工具包。

我们的平台已经在为世界上几乎所有领域的人工智能交付提供动力。在金融领域,TurboTax 通过联邦税务解释器帮助数百万客户自信地报税。在医疗保健领域,诺和诺德 (Novo Nordisk) 正在使用 Claude 起草临床研究报告,时间从 15 周缩短到不足 10 分钟。世界上最好的编码助手也运行在我们的平台上。这些公司中的每一家都将 Claude 的智能转化为对其用户具有独特价值的东西。

在其基础上,我们的平台通过我们的模型推理服务提供对 Claude 的可靠访问,该服务包括 Messages API 和诸如提示词缓存之类的基本工具,以优化性能和成本。所有输入 token 中有超过 50% 在平台上被缓存,这有效地使我们模型的上下文窗口加倍。Notion 可以在上下文窗口中放入大量文档,但仍能保持快速的实时执行。这使他们能够采用您的语气进行创意写作,并几乎消除幻觉。从今天开始,我们将缓存的生存时间从 5 分钟延长到 1 小时。

你们的代理现在可以在整个用户会话期间维持复杂的上下文,而不会超出预算。但这仅仅是基础。为了构建强大的代理,我们的平台提供了强大的构建模块。正如 Mike 分享的那样,我们正在发布两项新功能:文件 API 和代码执行工具。就像你我一样,有些问题通过编写脚本更容易解决。我们的平台让你的代理在生产环境中像你一样编写自己的代码。这些新功能加入了现有的组件,如用于实时信息的网页搜索和用于在源文档中验证响应的引用功能。当汤森路透 (Thomson Reuters) 在 CoCounsel 中向律师提供分析时,至关重要的一点是,他们必须将其分析建立在他们的法律研究和判例法之上,而不是模型的训练数据之上。

我们的平台还通过模型上下文协议 (MCP) 连接您的代理、您的数据和业务系统。MCP 在我们的开发者生态系统中迅速发展,社区已经构建了超过 3000 个集成。无论您的代理是使用 Sentry 访问应用程序错误、触发 Zapier 工作流,还是创建 Asana 任务,MCP 连接器都能使模型与您的任务所需的任何工具、数据或应用程序进行交互。今天,平台通过为您处理所有工具和 API 调用的技术复杂性,使其变得更加容易。

关于这个平台,我想强调的一点是 API 的可组合性。它们是既能协同工作又能独立工作的构建模块,有助于解决那些无法被强行塞入千篇一律模式的独特问题。可以将 Claude 视为代理的架构师和总承包商。它不执行预定义的序列或随机堆叠组件;相反,它智能地确定您需要哪些材料、以何种顺序以及它们如何组合在一起,从而创造出比任何单个元素都强大得多的东西。让我来展示我的意思。当您为复杂的金融分析构建代理时,Claude 会智能地评估任务并协调正确的工具:使用 MCP 访问财务数据,启动代码执行进行统计分析,搜索网络获取实时市场数据,并利用引用来确保准确性和合规性,根据结果进行迭代和优化。没有硬编码的工作流程,没有脆弱的脚本,只有智能的编排,使您能够构建强大的代理,并随着我们研究的进展无缝采用新功能。

我们理解提示词质量对 AI 应用的成败至关重要,因此我们创建了诸如提示词改进器 (Prompt Improver) 和评估 (Evaluations) 之类的开发工具,以及新的可观察性功能,帮助您更快地投入生产并实现规模化。今天,我们已经通过 Cookbook 和指南等资源帮助开发者更快地构建,这些资源展示了如何在您的应用程序中实现诸如记忆之类的功能。未来,我们将对这些资源进行调整以支持程序化访问,并直接将其托管在平台上,这样您就可以构建更强大的、能够自主研究和记忆的代理。

在生产环境中,我们构建的一切都围绕一个目标:帮助您更快地交付更好的 AI。Anthropic 平台不仅仅是工具,它是您构建行业领先代理的途径。

感谢大家今天与我一起参加 Code with Claude。会议余下的时间我会在会场,但现在我很荣幸地欢迎来自 GitHub 的 Mario Rodriguez,他将向大家展示这在生产环境中的具体应用。

七、与 GitHub 的合作 (Mario Rodriguez, GitHub)

Mario Rodriguez: 谢谢,谢谢 Michael。我非常激动能和大家在一起。我们 GitHub 非常兴奋能成为这股活力和创新浪潮的一部分,并与大家分享更多关于我们与 Anthropic 深化合作的信息。这个了不起的团队所做的一切都基于两个核心信念:第一,给予开发者选择;第二,给予他们最佳的开发者体验。

在去年的 GitHub Universe 大会上,我们开启了与 Anthropic 的合作关系。我们宣布在 VS Code 以及我们的对话体验中支持 Claude Sonnet 3.5。我们这样做是因为我们与 Anthropic 有着共同的基本信念:AI 可以成为一股强大的力量,成为开发者的力量倍增器,增强他们的能力,而不是取代他们,让他们能够专注于他们最擅长的事情——那就是作为一名软件开发者的想象力和创造力,这本身就是一件神奇的事情。

从那时起,我们已经将合作关系和体验扩展到了 VS Code、Github.com 和我们的移动应用等多个方面。今天,我非常高兴地宣布,GitHub Copilot 现在支持 Claude Sonnet 4 和 Opus 4,即刻可用!我们就在 Dario 宣布的那一刻按下了启动按钮,所有这些服务都已上线。

这就是同步发货的意义所在,让我告诉你们,这真的很难做到。我不知道你们在自己做的每个应用中是否都这样做过,但这非常困难。所以感谢所有促成此事的团队。

正如大家肯定知道的那样,代码的未来是代理。VS Code 中的代理模式是我们自主的结对程序员,它可以根据你的自然语言命令执行多步骤的编码任务。我们亲眼见证了将 Claude 的智能直接嵌入编辑器如何真正帮助开发者理解复杂的代码库,更快地将代码投入生产,并在不离开他们熟悉、喜爱和信任的环境的情况下提高生产力。

但即使是这样,在我看来,也仍然是单线程的,而未来是多线程的。你想想看,你在编辑器里,它变成了一个等候室。你虽然速度更快了,但它仍然是一个等候室。这就是为什么在周一,我们更进一步,宣布了 GitHub Copilot 编码代理。现在,我们的编码代理是自主的、异步的“同伴”程序员,不再是“结对”了,现在是你的“同伴”程序员,直接嵌入到 GitHub Copilot 的编码代理中,目前由——你们可能已经猜到了——Claude Sonnet 驱动。

我们选择它的原因对我来说非常清楚。让我简单介绍一下促成这个决定的三点:第一,我们的评估显示 Claude 展示了三个主要优势:强大的软件工程和编码知识;强大的问题解决能力——这一点非常重要,因为有时你必须查看代码并找到正确的位置进行编辑;第三,出色的指令遵循能力,特别是在考虑工具和 MCP 时。因此,当你为代理式编码构建系统,处理这些问题以及大型代码库和系统提示时,你还需要其他东西,那就是缓存。Anthropic API 提供的提示词缓存支持让我们能够以最具成本效益的方式构建这些体验。每一个 token 都很重要,每一个 token 在价格方面也很重要。所以我们节省的 token 越多,我们就能为客户提供更好的体验。

除此之外,Claude 已经是代理模式中最常被选择的模型。所以一旦我们将所有这些因素综合起来,我们就非常清楚,对于 GitHub 场景中的代理编码而言,Claude Sonnet 是正确的模型选择。现在,通过 Claude Sonnet 4,我们在所有这些领域都看到了改进,不仅仅是在像 SweetBench 这样的聚合基准测试中,更重要的是,在我们真实世界的评估套件中也是如此。

我们的合作比这更深入,不仅仅是直接集成模型。我们一直与 Anthropic 密切合作,以正式采用和扩展 MCP。我们正在将智能——你可以将其想象成这些模型极其智能,就像堆叠了三个博士学位一样——与知识相结合。那么,如何将知识融入到那个智能模型中呢?对我们来说,答案是 MCP 和工具。这真正解锁了开发者工具的下一次加速。

最近,微软首席技术官 Kevin Scott 打了个比方,说 MCP 就像是网络的 HTTP 协议,我完全同意他的看法。所以,如果你还没有采用 MCP,今天就去做吧,就在这个主题演讲之后去体验一下。它就是这么重要。它是将知识输入这些智能模型的方式。

当我们步入软件开发的新时代,我们正在将 GitHub 平台从 AI 注入转变为 AI 原生,从创建到部署。我们设想这个软件开发生命周期 (SDLC) 的顶层有一个代理层,它贯穿你编码的内部循环和那些异步体验的外部循环。你将成为每一步的积极协作者。我们之所以说 Copilot,是因为人类处于中心,然后有代理在帮助你。

这就是为什么我们宣布一项新的合作伙伴关系,将 Cat 刚刚展示的 Claude Code 和可扩展的 Claude Code SDK 直接集成到 GitHub 的代理平台中。这为远程自定义 Claude Code、从嵌入到 GitHub 和我们工作流程中的新界面调用它开辟了新的可能性,所有这些都在 GitHub 平台上进行。

我们已经做了很多,但在我们看来,与 Anthropic 的旅程才刚刚开始。我们相信,通过将 GitHub 对开发者的深刻理解与 Anthropic 通过 Claude 和平台 API 实现的 AI 能力相结合,我们将能够,也一定能够,开启一个更直观、更高效、最终更人性化的未来。这种人性的力量非常重要。所以我很兴奋能看到我们继续共同构建的成果,也很期待看到你们每一个人与我们一起构建的成果。非常感谢,现在请 Mike Krieger 再次登台。

八、问答与炉边谈话 (Mike Krieger & Dario Amodei)

Mike Krieger: 再次问好,再次感谢 Mario、Michael 和 Cat。我非常喜欢 GitHub 的集成。我做的上一个项目,我当时就想:“哦,我实际上可以直接把 Claude Code 安装到 GitHub CodeSpace 里。”然后突然之间,我就能在已经构建的仓库上使用 Claude Code 了。听到他们每个人的分享,以及所有围绕 Claude 所做的激动人心的工作,真是太棒了。

为了结束今天的活动,我想更深入地探讨一下 Claude 4、我们的研究方向,以及开发者接下来可以从 Anthropic 期待些什么。所以,请大家和我一起再次欢迎 Dario 回到台上,进行我们的一对一交流。欢迎回来,Dario。

Dario Amodei: 再次问好。

Mike Krieger: 这太棒了,就像我们当着全体观众进行一对一谈话一样,很棒。所以,Claude 4 已经发布了,Claude Sonnet 4 和 Claude Opus 4 已经可用。关于 Claude 4 模型,最让你兴奋的是什么?它如何改变了你对未来 12 个月可能发生的事情的看法?

Dario Amodei: 是的,我认为从抽象层面来看,最让我兴奋的是,你知道,每当有一类新的模型出现,你就能用它做更多的事情,对吧?所以,我们之后还会发布 Claude 4 之后的模型,可能会有 Claude 4.1,就像我们对 Sonnet 3.5 所做的那样。我认为,就新一代模型能做的事情而言,我们才刚刚开始。就任务而言,我认为自主性将会比现在走得更远,就是那种让你的模型自由发挥,给它能力去做一些长时间的事情。我认为我们在这方面还处于非常初级的阶段。我实际上对模型在网络安全任务方面的应用越来越兴奋。你可以把网络安全看作是编码任务的一个子集,但它们往往是更高端的编码任务,所以我认为我们可能终于达到了那个门槛。然后,作为一名前生物学家,我总是对模型在生物医药和那种精细的科学研究工作中的应用感到兴奋,我认为 Opus,特别是 Opus,在这方面会非常强大。

Mike Krieger: 这确实与《充满爱意的机器》(Machines of Loving Grace) 的理念紧密相连。那么,Claude 4 在这个整体发展轨迹中处于什么位置呢?我喜欢开玩笑说,人们认为《充满爱意的机器》是一篇文章,而我认为它是未来几年的产品路线图。很好奇 Claude 4 是如何融入这段旅程的。

Dario Amodei: 这有点像我写下了一个产品路线图,却不知道如何实际实现它,然后说:“好了,伙计们,这是你们的工作,你们的任务。”是的,我认为我们越来越关注生物学方面的事情,软件也是其中的一部分,对吧?而且占比越来越大,因为生物学越来越多地涉及数据,甚至在我还是生物学家的十年前,它就已经涉及数据了。我认为越来越多的情况会是这样:我们拥有这些对生物学了解很多的模型,它们可以帮助编写代码。所以,如果你是一名计算生物学家,我认为这些模型将真正加速你的工作。我们有很多客户正在尝试将模型用于这些任务,我想我们稍后会谈到这一点。

Mike Krieger: 我想,在我们发布 MCP 之后做的第一次黑客松上,有人把 MCP 连接到了那种绘图仪上,用来画图。所以 Claude 可以为自己画画,看 Claude 为自己画的东西其实很有趣。但那就像是第一个例子,MCP 不仅仅可以连接到数字系统,它们也可以连接到现实世界。所以,比如什么时候能通过 MCP 来驱动实验室设备,我认为这是一个很快就会到来的有趣问题。

Dario Amodei: 我们将能够通过将 Claude 连接到测谎仪来测试它。

Mike Krieger: 我喜欢这个主意。你在撒谎吗?

Dario Amodei: 有了测谎仪,谁还需要可解释性呢?

Mike Krieger: 你提到过那个让你确信 Claude 写的内容是人类写的时刻。在观察我们所有人试用 Claude 4,或者你自己试用时,还有其他让你意识到这个模型与众不同的突破性时刻吗?

Dario Amodei: 我其实并不了解细节,但是我们这边有好几个人,在模型发布前几周,有人说:“天啊,这个模型一下子就解决了一个极其困难的性能工程任务。”以前没有任何模型做过类似的事情。我想说的是,模型开发过程中有一种近乎迷信的过程,就是它总是在最后一刻神奇地整合起来,即使训练过程是完全规划好的。也许是模型能力的某些方面,也许是它们与人互动的方式,也许是仅仅让它在最后一点变得更好很重要,也许是人们习惯了模型并学会了如何提示它。但你总会发现,早期版本的模型,人们还在努力弄清楚如何使用它们,然后最终你达到了一个点,人们会说:“这个对我一直都有效。”那种炼金术般的过程总是发生在最后一刻。

Mike Krieger: 如果你读过艾德·卡特姆的《创新公司》(Creativity, Inc.),他谈到了所有皮克斯电影都有同样的过程,它们在上映前两天都还很糟糕。我对我们的模型也有同样的感觉,不是说它们真的很糟糕,而是它们好像还差那么一点火候,然后突然之间就豁然开朗了,我们就迫不及待地想把它们发布给大家。

Dario Amodei: 这完全说不通,因为训练过程是统一的,你知道,你会认为它不应该是那样运作的,它应该是一个完全理性的过程,但它绝对不是。在强化学习曲线上根本没有任何一个点表明它们会融合在一起,它总是在最后一刻才融合,我不知道为什么。

Mike Krieger: 这确实是一个真实的时刻。观众中很多人是开发者,我知道内部也出现过一个问题,当人们思考 AI 如何发展时,那就是:软件工程工作的哪些部分会被 AI 取代?在一个拥有能够完成大量软件工程任务的自主代理的世界里,什么变得更重要?

Dario Amodei: 可能和这里的许多人一样,我几个月前饶有兴趣地读了 Steve Yegge 的博客文章《初级开发者的复仇》(Revenge of the Junior Developer)。他之前也有一些类似的博文,实际上他还来拜访过我们。那篇文章阐述了事情发展的方向,可能比我说的还要好,那就是我们正逐渐走向模型的更高自主性。我们经历过一个阶段,基本上是做自动补全。现在有种东西,我猜人们称之为“氛围编程”(vibe coding)。然后我们更多地转向那种你可以派遣代理去做事情的模式。我认为通过 Claude Code,我们将更多地朝着你可以派遣代理去做事情的方向发展,而且我相信我们还会有其他产品界面允许你这样做。我认为我们正在走向一个人类开发者可以管理一个代理团队的世界,对它们说:“你去做这个,你去做那个,你去做那个。”但我认为持续的人工参与对于质量控制、确保它们做正确的事情、把细节做好仍然很重要。所以,在模型和围绕它的产品界面上共同努力,把细节做好,将会非常重要。

Mike Krieger: 我也觉得这突显了一点:工作中效率低下的部分会让你更加痛苦,因为它把你从这种构建的流畅状态中拉了出来。至少这让我意识到,我们在跨职能协调和路线图规划上花费了太多时间,而我们本应努力进行更多构建。所以,随着工程部分的速度加快,这反而变得更加痛苦了。

Mike Krieger: 业界对于更大模型还是更小架构哪个最终会胜出,一直争论不休。你因推广和开创了规模法则 (scaling laws) 论文而闻名。你目前对极端情况——预训练已死,还是预训练仍然至关重要,以及它相对于后训练的角色——有何看法?

Dario Amodei: 我不想说得太具体,但我会说 Claude 4 模型体现了预训练和后训练两方面的进步。所以我们继续看到预训练的规模法则像以前一样有效。而且我们也继续看到后训练方面的持续进步,它们在某种程度上是相互补充的。我认为我们将继续看到这两方面的进步。我认为我们也将继续扩大规模。所以我们有这些多重趋势,这些多重指数级增长来源,它们都将相互复合。这就是为什么我认为所有这一切都将发展得非常快。我喜欢 Yegge 的博文的原因之一是,那是一个不是我的人在重复那个口头禅,即“再过一两年,这些东西就会像我们的同行一样了”。

Mike Krieger: 3.7 版本才刚在二月份发布,这真是太疯狂了,对吧?感觉像是一年前的事,但实际上才三个月前。

Dario Amodei: 我知道,我知道,感觉就像“哦,这感觉像个过时的模型”之类的,但实际上它才发布了两个半月左右。时间尺度正在压缩。我经常说,在人工智能领域,我会稍微跑个题,在人工智能领域感觉就像你登上了以相对论速度离开地球的宇宙飞船。有一天你醒来,发现飞船上的一天相当于地球上的两天,所以你必须接收两天的消息。然后速度加快,飞船上的一天相当于地球上的三天。这就是置身于这场旅程中的感觉。

Mike Krieger: 这种感觉我能体会,我以前听过这个比喻,确实如此。也许在后训练方面,我在 Claude 4 中看到的一个让我非常兴奋的发展是这个记忆的概念,以及让模型能够管理它的记忆。也许可以谈谈为什么这很重要,以及它带来了哪些可能性?

Dario Amodei: 很抱歉,重复一下问题。

Mike Krieger: 模型能够管理自己的记忆,并能够处理那些长期的任务。

Dario Amodei: 是的,是的,我们发现这非常有用。我认为我们发现它有用的一个地方是宝可梦游戏,模型能够记住它的状态。但想必它对除了宝可梦之外的许多事情也很有用。不,我认为这很棒,模型,就像人类一样,当我在思考时,我会写很多笔记,然后在稍后的时间里回忆那些笔记。或者说,我有很多中间工作要做,模型在某种程度上也会这样做,当它们推理时,当它们有,比如我们的推理轨迹时。但并不是我做的所有事情都能被整合到一个草稿板上,对吧?有演示文稿,有我写的单个文档。所以模型也是一样的,对吧?它们能够创建文件,对那些文件做些事情,加载数据,并无缝地将这些事情交织在一起。我们拥有的新功能之一就是这种交错的推理和行动,其中一些行动可以是存储数据,再次回忆数据。模型拥有的能力正逐渐趋同于人类拥有的能力,我认为这应该是它应有的方式。

Mike Krieger: 我在 Claude 4 中经历的一个令人震撼的时刻是,我们给 Claude Code 添加了一个类似待办事项列表的草稿板,看着它逐条处理待办事项,然后在想到更多要做的事情时,就添加到待办事项列表中,勾掉已完成的,划掉不再相关的。这真的模仿了人们管理自己工作和思考如何完成工作的方式。然后是交错的推理和工具使用。我今天早上在 MacStories 上看到一篇报道,它正在使用一个工具,那是一个 MCP,它遇到了后端 MCP 服务器的速率限制,因为它正在进行推理,它想:“嗯,我可能达到了速率限制,让我试试另一种方法来做这件事。”所以,这种在工具使用过程中进行推理和补救的能力,我认为非常强大。

Mike Krieger: 我想谈谈“力争上游”(race at the top)。安全和能力通常被认为是相互矛盾的,而你的论点恰恰相反,认为这两者可以同步发展。我觉得这非常鼓舞人心,也是我加入这里的原因之一。但也许可以谈谈你如何看待“力争上游”?

Dario Amodei: 是的,我认为它适用于从非常平凡、简单和商业化到 AI 未来宏大方向的各种事物。所以,我认为当我们与客户交谈时,有很多客户非常关心确保他们 AI 模型的行为是可预测的,是值得信赖的。我认为这与我们长期以来为确保模型在更宏观的意义上与人类意图保持一致所做的努力是一致的。所以这里有一种很好的协同作用。而且我认为,只要我们有能力这样做,只要我们认为这样做是合理或负责任的,我们就确实希望为社区提供工具。MCP 就是一个例子。我自己其实对大家似乎都围绕 MCP 快速标准化的速度感到惊讶。我的意思是,这非常奇怪,我们在 11 月发布了它,我不会说当时立即有巨大的反响,但随后在三四个月内,它就好像成了标准。 опять же,这又像是坐在宇宙飞船上加速离开地球,经历着越来越大的时间膨胀常数。

Mike Krieger: 是的,就像 USB 和其他标准一样,想想 90 年代或 2000 年代的标准,人们需要花费数年时间才能达成共识。

Dario Amodei: 即使在与业内其他参与者谈论 MCP 时,他们也表示:“我们不想拖慢 MCP 上任何正在运行的东西的后腿。我们确实希望在指导方面得到一些帮助,但这就像是你们捕捉到了瓶中的闪电,我们要确保它成为新的协议和我们互操作代理的标准。”

Mike Krieger: 也许把“力争上游”联系起来,我非常喜欢你的文章《可解释性的紧迫性》(Urgency of Interpretability)。你也有神经科学的背景,能谈谈你如何看待可解释性与机器智能的共同发展吗?

Dario Amodei: 是的,我认为十年前,许多人认为神经科学会告诉我们如何做人工智能。事实上,这个领域确实有许多前神经科学家,我不是唯一一个,还有其他实验室的负责人也有这个背景。我发现,在宏观层面上,有一些启发,但我不会说:“哦,这是我们从下丘脑知道的东西,我们可以用它来制造这些模型。”这几乎完全是从零开始的。但有趣的是,事情更多地是反向发展的,那就是通过使用可解释性,我们能够洞察模型的内部。当然,它们与人脑的制造方式不完全相同,在表面层次上有很多差异。我们在模型内部发现的许多概念模式,有时会在神经科学研究中得到复制。比如视觉中关于高低频检测器的一些东西,那是 Chris Olah 团队中的一个人通过可解释性发现的,几年后,一位神经科学家实际上在动物大脑中复制了它。例如,视觉模型会将颜色和亮度或物体边界的路径分开,这些似乎是世界上自然的区别,是等待被发现的。任何时候你拥有任何类型的抽象学习系统,无论是人工的还是生物的,你都会发现同样的事情。

Mike Krieger: 我非常好奇“回路”(circuits)论文最终会如何影响神经科学研究。让我们展望 5 到 10 年的时间范围,尽管在 AI 领域这几乎是不可能的,因为我们正在以相对论的速度前进,也许相对论上那在现实时间里可能只是一年。你认为什么时候会出现第一个只有一名人类员工的十亿美元公司?

Dario Amodei: 2026 年。

Mike Krieger: 我完全相信。对于未来一年使用 Claude 构建应用的开发者,你有什么建议吗?如何思考在那个前沿进行构建?

Dario Amodei: 我认为有很多非常具体的事情可以谈论如何使用模型,但我觉得因为这个相对论时间膨胀的事情,这种加速,几乎所有的建议都被一句话,或者说两个词淹没了,那就是:“保持雄心壮志”(Just be ambitious)。去构建一些超出你认为可能的东西。即使它现在还不能完全奏效,下一代模型也会出现——现在是三个月,但可能很快会缩短到两个月,然后一个月。然后,如果我想今年有所成就,也许我会给出这样的建议:“哦,今天什么都别建了,我们今天发布了一些东西,但到了今晚,你可能就不想用今天发布的东西来构建了。”

Mike Krieger: 我和一位两年前在自主 AI 编码代理领域创业的创始人聊过,他基本上尝试了所有模型,他的初创公司一直不成功,然后直到 3.7 版本出现,他说:“我的初创公司现在能行了!”这和之前的情况一样,我一直在努力尝试但非常困难的事情,突然之间就变得可能了。

Dario Amodei: 但实际上,有时候“撞南墙”可能是有用的,因为你已经把所有其他部分都准备好了,除了模型不行,其他一切都行。然后当模型也能工作时,就好像你构建了一个比实际需要的更强大的东西,这可能是一个积极的特性。所以,尽管我开玩笑说:“哦,你应该等下一个模型”,但实际上,只要你努力去做一些“几乎可能”实现的事情,而不是那些离可能性还有三年之遥的事情,我认为“撞南墙”实际上可以富有成效。

Mike Krieger: 我们甚至在内部的先进研究中也看到了这一点,比如我们的研究和 Claude 技能团队曾构建了一个原型,但模型有点迷失方向,不太擅长使用工具。然后到了 3.7 版本,尤其是 Claude 4,我想你会发现它在先进研究方面也做得非常好。这是因为我们一直在尝试,也一直在经历失败。

Dario Amodei: 这几乎就像你想把你的创业公司当作对下一个模型的“投机性执行”(speculative execution) 来运行,对吧?这有点像……我不知道。

Mike Krieger: 我喜欢这个说法,是的,我认为完全正确。好吧,最后一个问题来总结一下。对于我们今天在座的许多非 Dario 的人来说,我们无法想象 AI 已经取得的进步以及这种快速的变化。对于未来一年和未来五年,你最期待的是什么?

Dario Amodei: 是的,我认为在接下来的一年里,我们将在代码领域看到令人难以置信的事情。我会再次提到,从我们目前 Claude Code 的水平和编码模型的水平出发,发展到那种代理集群。我认为这将对世界产生有趣的影响,那就是我不知道我们是否从经济或商业角度仔细思考过,当软件生产成本下降时会发生什么。我们一直有一种信念,认为只有当数百万甚至数十万人使用软件时,或者至少数万或数千人使用时,制造软件才有意义。你不会为这次活动专门开发一整套软件,对吧?你可能会临时凑合一些东西。但是,当事情变得非常便宜,当你花 20 美分就能“哦,让我们随便弄个东西来改变我对这次活动的设想”之类的时候,我认为当这些东西可以在几秒钟内以不到一美元的成本临时按需制作出来时,世界将会大不相同。开发者的角色是什么?企业的角色是什么?初创公司的角色是什么?使用者的体验又是什么?我认为我们对这些问题都不知道答案,所以这非常有趣。

在五年的时间尺度上,我会再次回到生物学。我认为生物医药领域在接下来的一年里不会发生革命性的变化,因为它进展比较缓慢。但我希望五年后,我们将能够攻克许多现在存在的疾病。

Mike Krieger: 我喜欢这个愿景,我们就此打住。不幸的是,我们确实必须结束了,我觉得我们还可以再聊 40 分钟。所以首先,我要感谢 Dario 今天花时间和我们在一起。谢谢你,Dario。

九、结束语 (Mike Krieger)

Mike Krieger: 我也想感谢所有亲临现场以及通过直播观看的各位。但在我们结束之前,我差点忘了一件事。作为对今天所有亲临 Code with Claude 现场的朋友们的特别感谢,我很高兴地宣布,你们每位都将获得三个月 Max 20X——我们最高级别套餐——的免费使用权。所以请留意查收。

我特别喜欢将 Max 与 Claude Code 结合使用,所以你们也能做到这一点。我们迫不及待地想看到你们构建的成果。祝愿大家在接下来的各个环节中度过愉快的一天。再次欢迎来到 Code with Claude。感谢大家的到来。

与会者: 感谢大家的到来。


要点回顾

一、开场与欢迎 (Mike Krieger, Anthropic CPO)

  • 欢迎来到 Code with Claude,Anthropic 的首届开发者大会。
  • Mike Krieger 介绍:Anthropic 首席产品官,曾联合创办 Instagram 和 AI 新闻应用 Artifact。
  • Anthropic 的愿景:构建强大、有用且值得信赖的 AI 系统。
  • 对开发者的承诺:赋能开发者,改变工作方式和公司构建方式。
  • AI 的作用:增强而非取代人类创造力。
  • AI 代理正在改变工作和创新方式,消除限制人类生产力的瓶颈。
  • 今日议程预览:
    • 三场技术深度探讨,改变用 Claude 构建的方式。
    • 五场来自行业领导者的会议,分享他们如何使用 Anthropic 平台重塑行业。
    • 专门的答疑时间和研讨会,提供实践经验。
  • 邀请 Anthropic CEO兼联合创始人 Dario Amodei 上台。

二、重磅发布:Claude 4 系列模型 (Dario Amodei, Anthropic CEO)

  • 即刻发布 Claude 4 Opus 和 Claude 4 Sonnet。
  • Claude 4 Opus
    • 功能最强、最智能的模型。
    • 专为编码和代理式任务(agentic tasks)设计。
    • 在 SweetBench, TerminalBench 等基准测试中达到顶尖水平。
    • 客户预览发现它能自主完成人类需时 6-7 小时的任务。
    • Anthropic 内部资深工程师对其提升生产力的效果感到惊讶。
    • 生成内容的质量首次达到能与人类书写混淆的程度。
  • Claude 4 Sonnet
    • 中端模型,在智能与效率间取得良好平衡。
    • 对比 Sonnet 3.7,在相同成本下智能性更高,是严格的改进。
    • 在某些编码基准上表现与 Opus 一样好。
    • 解决了 Sonnet 3.7 的一些反馈问题,如“过度热情”(overeagerness)和一些奖励 hacking 问题。
    • 客户(如 Cursor)评价:“顶尖的编码模型”,“复杂代码库理解能力的飞跃”。
    • 一位客户现场体验后感叹:“这模型太TMD牛了!”(“What the f is this model?")
  • 未来展望
    • 将持续改进 Claude 4 系列模型。
    • 预计会定期发布次要版本更新,频率可能比 Sonnet 更高。
  • 可用性
    • 即刻起在所有相关产品服务上线(API 等)。
    • 免费套餐仅提供 Sonnet。

三、API 路线图与 Claude 4 模型详解 (Mike Krieger)

  • Claude 4 的构建目标:
    • 构建强大的 AI,安全引入新模型能力。
    • 继续推动编码和 AI 代理的前沿。
    • 确保 Claude 成为虚拟协作者。
  • Claude 4 Opus 和 Sonnet 4 特性
    • 均为混合模型,具有近乎即时的响应模式和用于深度推理的扩展思考模式。
    • Opus 4:擅长理解代码库、规划新功能、代码迁移、重构,适用于最复杂的代理式工作流。
    • Sonnet 4:擅长日常编码任务、应用开发、结对编程,适用于高容量使用场景。
    • 可用平台:Claude、Claude Code、Anthropic API、Amazon Bedrock、Google Cloud Vertex AI。
  • AI 代理的新能力
    • 在推理过程中使用网页搜索等工具。
    • 并行处理多个工具。
    • 访问本地文件时,能跨会话保持记忆,随时间积累知识。
  • AI 代理的潜力
    • 将人类想象力大规模转化为现实。
    • 帮助初创公司并行实验、快速学习和构建产品。
    • 提供类似高级管理人员(如 CFO、产品负责人)的战略思考能力。
  • 个人经历:为 Alexa 构建演示
    • 曾用 Claude 在一周内为亚马逊 Alexa 团队构建了一个演示原型。
    • Claude 现在是亚马逊用于 Alexa Plus 的模型之一。
  • AI 发展回顾
    • 2021年 GitHub Copilot 的早期体验是“机器学习最令人震撼的应用”。
    • Artifact 应用中,Claude 能根据描述构建迷你应用或可视化。
    • AI 更多是增强工作(augmentation),而非取代整个角色,主要影响任务层面。
  • 优秀 AI 代理应具备的三大能力
    • 情境智能 (Contextual Intelligence):理解用户和组织的独特情境,从经验中持续学习,具备情景记忆、片段记忆和组织记忆。与代理进行的第100个任务应远好于第一个。
    • 长期执行 (Long-running Execution):无需持续管理即可处理复杂的多小时任务,按需与其他代理和人类协调。
    • 真正的协作 (Genuine Collaboration):进行有意义的对话,适应工作风格,为其行为提供透明的推理。
  • 真正的代理能力:意味着智能自主与明确检查点的平衡,关键决策由人监督,小决策可委托。

四、新 API 功能发布 (Mike Krieger)

  • 代码执行工具 (Code Execution Tool)
    • 今日在 Anthropic API 上线。
    • 赋予 Claude 运行代码的环境,使其能充当数据分析师,将原始数据转化为可视化洞察。
    • Claude 不仅编写代码,还能执行代码、查看结果并迭代优化。
    • 示例:分析销售数据。
    • 能处理长达数小时的任务(例如,乐天 Rakuten 提到 Claude 独立运行了7小时并保持性能)。
    • 任务时长演进:Cloud3 (分钟级) -> Claude 3 (约45分钟) -> Claude 4 (小时级)。
  • Claude Code (正式发布)
    • 从内部探索项目 (Claude CLI) 发展而来。
    • 内部广泛使用,体现“产品 Anthropic 契合度”。
    • 大多数 Anthropic 员工日常依赖其进行编码和大规模迁移。
    • 将技术入职时间从2-3周缩短到2-3天。
    • 新功能
      • 集成到 VS Code 和 JetBrains,提供完整的差异视图和编辑器内建的代理式工作流管理。
      • 推出 Claude Code SDK,允许在其核心代理之上构建自定义应用。
      • SDK 示例:在 GitHub 中运行 Claude Code,可在 PR 或 issue 中标记 Claude,使其响应评审反馈、修改代码或实现测试覆盖。
    • “闭环”:Claude Code 正在帮助构建自身,加速其自身发展。
  • 安全与责任
    • 所有功能都包含“架构安全检查点和控制”。
    • 模型能识别机密信息。
    • 针对提示词注入等进行严格测试。
    • 设计上具有透明性,提供清晰的反馈循环和可观察的行为。
  • 可解释性 (Interpretability)
    • Dario 的文章《可解释性的紧迫性》:模型智能与可解释性之间的竞赛。
    • 目标:能像给 AI 做 MRI 一样理解其内部工作。
    • Golden Gate Claude 演示:通过放大神经网络中金门大桥的特征,使其痴迷于该桥。
    • 未来应用:减少模型有害行为,提升特定领域性能,实现可审计性。
  • 赋能代理的四大互联能力(上下文与规模化)
    1. 模型上下文协议 (Model Context Protocol, MCP) API 对接
      • 今日起可通过 API 直接连接。
      • 已被 Microsoft, Google, OpenAI, Block, Atlassian, Zapier, Linear 等采用。
      • 作为 AI 代理的通用翻译器和连接器,实现与现有系统的无缝连接。
      • 为“代理经济 (agent economy)”奠定基础。
    2. 网页搜索 (Web Search)
      • 赋予 Claude 实时访问当前信息的能力。
      • 使其能推理时事、市场趋势和新兴技术。
    3. 文件 API (Files API)
      • 今日在 API 中可用。
      • 简化开发者访问和存储文档的流程。
      • 发布 Cookbook 帮助开发者在应用中构建记忆功能。
      • Claude 4 模型在“自我管理记忆”方面有显著改进。
    4. 提示词缓存 (Prompt Caching) 增强
      • 最受欢迎的 API 功能之一,可降低长提示词成本高达90%,延迟降低高达85%。
      • 新功能:推出高级版1小时 TTL (Time To Live),相较之前的5分钟提升12倍,显著降低长时间运行代理工作流的成本。
  • 未来路线图三大支柱
    1. 行业领先的代理式工具和应用(如 Claude Code 及其 SDK)。
    2. 在 API 中集成更多上下文(通过 MCP、网页搜索、文件 API)。
    3. 高效扩展(如增强的提示词缓存)。
  • 鼓励开发者提供 API 反馈。
  • 接下来由 Cat Wu 演示 Claude Code。

五、Claude Code 演示 (Cat Wu, Claude Code 产品经理)

  • Claude Code 正式发布。
  • 开发正向更高层次的抽象演进。
  • 新的 Claude 4 模型已集成到 Claude Code
  • Claude Code 新特性
    • VS Code 和 JetBrains 集成:在编辑器中内联查看差异。
    • Claude Code SDK:允许开发者在应用和工作流中将其作为构建块。
    • 开源示例:GitHub 中的 Claude Code:可在 GitHub 的 PR 和 issue 中直接标记 @Claude,使其响应反馈、修复CI错误、添加新功能等。
  • Claude Code 的应用场景:终端、远程环境 (GitHub)、IDE。
  • 演示场景
    • 任务:为开源白板工具 Excalidraw 添加一个表格组件。
    • 要求:支持自定义尺寸、拖拽调整大小、以及 Excalidraw 的所有其他样式选项。
    • 过程
      • Claude Code 创建任务清单,探索代码库。
      • 在 VS Code 编辑器中内联显示代码差异。
      • 可选择自动接受模式。
      • Claude Code 耗时90分钟完成任务(演示为加速版)。
      • 成功添加表格功能、编写测试、迭代直至 lint 和测试通过。
    • 验证
      • 本地运行 Excalidraw,成功创建三行三列表格,可重定位、调整大小、更改边框图案颜色、单元格内添加文本,并与 Excalidraw 现有 UI 集成。
    • 后续
      • 使用 Claude Code 通过 GitHub CLI 创建 PR。
      • 在 PR 中标记 @Claude,要求其更新文档(通过运行 Claude Code SDK 的 GitHub Action 实现)。
  • 可用性
    • GitHub Actions 中的 Claude Code (beta 版)。
    • VS Code 和 JetBrains IDE 扩展 (beta 版)。
    • Claude Opus 4 和 Claude Sonnet 4 已对 Claude Code 用户开放。
  • 构建强大代理不仅需要智能模型,还需要正确的平台。
  • 接下来由 Michael Gershenhober 介绍平台。

六、Anthropic 平台介绍 (Michael Gershenhober, API 平台产品负责人)

  • Anthropic 平台:构建顶尖 AI 应用和代理的完整工具包。
  • 客户应用案例
    • 金融:TurboTax 使用 Claude 提供联邦税务解释器。
    • 医疗:Novo Nordisk 使用 Claude 起草临床研究报告,时间从15周缩短至不到10分钟。
    • 众多顶尖编码助手运行于该平台。
  • 平台基础
    • 模型推理服务:包括 Messages API 和提示词缓存等工具。
    • 超过 50% 的输入 token 在平台上被缓存,有效将模型的上下文窗口加倍。
    • Notion 案例:利用缓存保持实时执行速度,同时采用用户语调进行创作并几乎消除幻觉。
    • :提示词缓存的 TTL 延长至1小时。
  • 构建代理的强大模块
    • :文件 API (Files API)。
    • :代码执行工具 (Code Execution tool)。
    • 现有:网页搜索 (Web Search)、引用功能 (Citations)(例如,汤森路透的 CoCounsel)。
  • 连接代理与数据/业务系统
    • 模型上下文协议 (MCP):社区已构建超过 3000 个集成(如 Sentry, Zapier, Asana)。
    • 平台为用户处理工具和 API 调用的技术复杂性。
  • API 的可组合性
    • Claude 如同代理的架构师和总包商,智能决定所需材料、顺序和组合方式。
    • 示例:复杂金融分析代理,使用 MCP 访问财务数据,启动代码执行进行统计分析,搜索网页获取实时市场数据,并使用引用确保准确性和合规性。
  • 开发者工具
    • 提示词改进器 (Prompt Improver)、评估 (Evaluations)、新的可观察性功能。
    • Cookbook 和指南(例如,在应用中实现记忆功能)。
    • 未来:将这些工具程序化接入并直接托管在平台上。
  • 核心目标:帮助开发者更快地交付更好的 AI。
  • 接下来由 GitHub 的 Mario Rodriguez 分享。

七、与 GitHub 的合作 (Mario Rodriguez, GitHub)

  • GitHub 的核心信念:给予开发者选择,提供最佳开发者体验。
  • 合作始于 GitHub Universe:在 VS Code 和对话体验中支持 Claude Sonnet 3.5。
  • 共同信念:AI 是开发者的强大力量倍增器,增强其能力而非取代。
  • :GitHub Copilot 即刻起支持 Claude Sonnet 4 和 Opus 4。
  • 代码的未来:VS Code 中的代理模式 (Agent mode),作为自主的结对程序员。
  • 未来是多线程的:GitHub Copilot 编码代理 (Coding Agent),是自主的、异步的“同伴”程序员 (peer programmer)。
    • 当前由 Claude Sonnet 驱动。
    • 选择 Claude Sonnet 的原因
      1. 强大的软件工程和编码知识。
      2. 强大的问题解决能力。
      3. 优秀的指令遵循能力(尤其对于工具和 MCP)。
    • Anthropic API 的提示词缓存对成本效益至关重要。
    • Claude 是(VS Code)代理模式中最常被选择的模型。
  • Claude Sonnet 4 在这些方面均有改进。
  • 采纳 MCP
    • 与 Anthropic 紧密合作,正式采纳并扩展 MCP。
    • MCP + 工具 = 解锁开发者工具的下一次加速。
    • 微软 CTO Kevin Scott 的比喻:MCP 如同 Web 的 HTTP 协议。呼吁大家“今天就采纳 MCP”。
  • GitHub 平台正从“AI 注入”转变为“AI 原生”。
  • 软件开发生命周期 (SDLC) 将由跨越内循环(编码)和外循环(异步体验)的代理层驱动。
  • 新的合作伙伴关系:将 Claude Code 及其可扩展的 Claude Code SDK 直接集成到 GitHub 的代理平台。
    • 允许远程自定义 Claude Code,从 GitHub 内嵌的新界面和工作流中调用它。
  • 与 Anthropic 的合作才刚刚开始。

八、问答与炉边谈话 (Mike Krieger & Dario Amodei)

  • Mike 问 Dario:对 Claude 4 最兴奋的是什么?
    • Dario:自主性将进一步提升。在网络安全任务和生物医药/科学研究(特别是 Opus)方面的应用。
  • Mike 问 Dario:Claude 4 如何契合《充满爱意的机器》(Machines of Loving Grace) 的愿景(产品路线图)?
    • Dario:在生物学方面,加速计算生物学的发展。
  • Mike 问 Dario:使用 Claude 4 过程中的突破性时刻?
    • Dario:模型一次性解决了一个极其困难的性能工程任务。模型能力在最后时刻神奇地整合起来的“炼金术”过程。
  • Mike 问 Dario:AI 将接管软件工程的哪些部分?什么变得更重要?
    • Dario:参考 Steve Yegge 的博文。模型自主性增强,从“vibe coding”到分派代理任务(如 Claude Code)。人类开发者将管理一个代理团队,负责质量控制。
  • Mike 问 Dario:大模型 vs. 小架构?预训练 vs. 后训练?
    • Dario:Claude 4 体现了两者皆有进步。预训练的扩展法则依然有效。后训练也在持续进步。多种指数级增长源将复合作用。
  • Mike 问 Dario:模型管理自身记忆对长程任务的重要性?
    • Dario:对于记住状态非常有用(例如宝可梦游戏)。类似人类做笔记。交错的推理和行动(存储/回忆数据)。模型的能力正逐渐趋同于人类的能力。
  • Mike 问 Dario:“力争上游”(Race to the Top) - 安全与能力协同发展?
    • Dario:这适用于从平凡到宏大的各个层面。客户关心 AI 模型的行为是否可预测、值得信赖。这与确保模型符合人类意图的长期目标一致。MCP 是向社区提供工具的一个例子,对其快速标准化感到惊讶。
  • Mike 问 Dario:可解释性与机器智能的共同发展(结合神经科学背景)?
    • Dario:十年前认为神经科学能指导 AI。现在反过来了,AI 模型的可解释性研究可以为神经科学提供启示(例如视觉中的高低频检测器)。AI 和生物大脑都在发现世界中固有的自然区别。
  • Mike 问 Dario:5-10年内,何时出现第一个只有一名人类员工的十亿美元公司?
    • Dario:2026年。
  • Mike 问 Dario:对未来一年使用 Claude 构建应用的开发者有何建议?
    • Dario:“保持雄心壮志 (Just be ambitious)。” 构建超出你认为可能的事物。模型迭代会跟上。即使遇到困难,“撞墙”也是有益的,只要目标是“几乎可能”实现的。将创业公司视为“针对下一代模型的投机性执行 (speculative execution)”。
  • Mike 问 Dario:对未来一年/五年最期待什么?
    • Dario
      • 未来一年:编码领域将有惊人进展(代理集群)。软件生产成本下降带来的经济和商业影响。按需、临时创建软件将成为可能。
      • 未来五年:生物学/生物医药领域。希望届时能攻克许多现有疾病。

九、结束语 (Mike Krieger)

  • 感谢 Dario、现场及线上观众。
  • 特别鸣谢:所有现场参与 Code with Claude 的与会者将获得三个月 Max 20X(最高级别套餐)的免费使用权。
  • 期待看到大家构建的成果,祝大家在接下来的会议中有所收获。