黄仁勋访谈:英伟达的护城河能否持续?
访谈概述
在本期播客中,主持人 Dwarkesh Patel 深度采访了英伟达(Nvidia)联合创始人兼 CEO 黄仁勋(Jensen Huang)。双方探讨了多个关乎人工智能与半导体行业未来的核心议题。
讨论的重点包括:
- 英伟达的护城河:探讨英伟达的真正壁垒究竟是软件生态,还是对台积电等稀缺供应链产能的长期锁定。
- TPU 与定制芯片的竞争:面对谷歌 TPU 以及各大科技巨头自研的 ASIC 芯片,英伟达的 GPU 及其 CUDA 生态为何仍能保持优势。
- 商业模式探索:手握巨额现金的英伟达,为何选择投资 OpenAI、Anthropic 以及新兴云厂商(Neoclouds),而不是自己亲自下场成为巨型云服务商(Hyperscaler)。
- 对华芯片出口管制(重点辩论):这是本次访谈中最激烈的一段对话。Dwarkesh 担忧将高端芯片卖给中国可能导致严重的安全隐患(如训练出具备强大网络攻击能力的 AI 模型);而黄仁勋则坚决认为,阻断芯片出口不仅无法阻止中国利用其能源和庞大的人才库推进 AI,反而会迫使他们建立脱离美国技术栈的独立生态,最终损害美国在全球技术领域的领导地位。
- 芯片架构战略:英伟达为何不平行推进多种截然不同的芯片架构研发,以及如果没有深度学习的爆发,英伟达今天会是一家怎样的公司。
专用词语翻译列表
| 英文原词 | 中文翻译/释义 |
|---|---|
| GPU (Graphics Processing Unit) | 图形处理单元(显卡) |
| TPU (Tensor Processing Unit) | 张量处理单元(谷歌定制的AI加速器) |
| Hyperscaler | 超大规模云服务提供商(如AWS, Google Cloud, Azure等) |
| Token | 词元 / Token(大模型处理文本的基本单位) |
| GDS2 (GDSII) file | 集成电路版图数据格式文件 |
| Logic dies | 逻辑裸片 |
| HBM (High Bandwidth Memory) | 高带宽内存 |
| ODM (Original Design Manufacturer) | 原始设计制造商 |
| Agent | 智能体 / 代理 |
| CoWoS (Chip-on-Wafer-on-Substrate) | 晶圆级封装(台积电的一种先进封装技术) |
| EUV (Extreme Ultraviolet Lithography) | 极紫外光刻机 |
| ASIC (Application-Specific Integrated Circuit) | 专用集成电路 |
| MoE (Mixture of Experts) | 混合专家模型 |
| TCO (Total Cost of Ownership) | 总拥有成本 |
| Zero-day (vulnerability/exploit) | 零日漏洞 / 零日攻击 |
| SSM (State Space Model) | 状态空间模型 |
| PO (Purchase Order) | 采购订单 |
访谈全文
Dwarkesh: 我向 Jensen 询问了 TPU 的竞争情况、英伟达对日益拥挤的先进芯片供应链的锁定、我们是否应该向中国出售 AI 芯片、英伟达为何不干脆自己成为一家超大规模云服务商,以及它是如何进行投资的等等。希望大家喜欢!
【赞助商播报环节】 Dwarkesh:
- Crusoe 的云服务运行在最先进的 Blackwell GPU 上,Vera Rubin 的部署计划在今年晚些时候进行。但硬件只是故事的一部分——对于推理而言,Crusoe 的 MemoryAlloy 技术实现了集群范围内的 KV 缓存,其首字生成时间(TTFT)比 vLLM 快 10 倍,吞吐量高 5 倍。
- Cursor 帮我在一个周末内构建了一个 AI 联合研究员。现在我拥有了一个 AI 智能体,我可以通过 Google Docs 中的内联评论线程与它协作!当其他智能体编程工具感觉像个完全的黑盒时,Cursor 让我能够掌控完整的实现过程。
- Jane Street 花费了约 20,000 个 GPU 小时在 3 个不同的语言模型中训练后门,然后向我的观众发起挑战,寻找触发词。他们收到了一些巧妙的解决方案——比如比较基础版本和微调版本,并推断出差异以揭示隐藏的后门——但没有人能够解决全部 3 个。如果你对这些开放性问题感兴趣,Jane Street 正在招聘。
英伟达最大的护城河是其对稀缺供应链的掌控吗?
Dwarkesh: 我们看到许多软件公司的估值暴跌,因为人们预计 AI 会将软件商品化。有一种可能有些天真的思维方式是这样的:你看,英伟达只是把 GDS2 文件发送给台积电。台积电制造逻辑裸片,制造开关,然后将它们与 SK 海力士、美光和三星制造的 HBM 封装在一起。接着,这些东西被送到台湾的一家 ODM,由他们组装机架。从根本上说,英伟达是在制造由其他人生产的软件(指芯片设计)。如果软件被商品化了,英伟达会被商品化吗?毕竟,总得有东西将电子转化为 Token。
Jensen: 将电子转化为 Token,并使这些 Token 随着时间的推移变得越来越有价值,这很难被完全商品化。从电子到 Token 的转化是一个令人惊叹的旅程。制造那个 Token 就像让一个分子比另一个分子更有价值一样。让这个 Token 产生价值所涉及的艺术、工程、科学和发明的数量是巨大的,显然我们正在实时见证这一切的发生。这种转化、制造,以及其中包含的所有科学,还远未被深刻理解,这段旅程也远未结束。我怀疑这会被商品化。当然,我们会让它变得更高效。
你提出这个问题的方式,正是我对我们公司的心理模型。输入的是电子,输出的是 Token,中间的就是英伟达。我们的工作是“尽我们所能做必要的事,同时尽量少做不必要的事”,以使这种转化能够以令人难以置信的能力完成。我说的“尽量少做”,是指凡是我不需要做的,我就和别人合作,让他们成为我生态系统的一部分。
如果你看看今天的英伟达,我们可能拥有最大的合作伙伴生态系统,无论是上游供应链还是下游——所有的计算机公司、应用程序开发者和模型制造商。如果可以这么说的话,AI 是一块五层蛋糕。我们在整个五层都有生态系统。我们尽量少做事,但事实证明,我们必须做的那部分工作难如登天。
我不认为这会被商品化。事实上,我也不认为企业软件公司、工具制造商会被商品化。今天大多数软件公司都是工具制造商。有些不是,有些是工作流编码系统。但对于许多公司来说,他们是工具制造商。例如,Excel 是一个工具,PowerPoint 是一个工具,Cadence 制造工具,Synopsys 制造工具。我看到的其实与人们看到的恰恰相反。
我认为智能体的数量将呈指数级增长,工具使用者的数量也将呈指数级增长。这些工具的所有实例数量极有可能激增。Synopsys Design Compiler 的实例数量极有可能激增,同时使用平面图规划器、布局工具和设计规则检查器的智能体数量也会激增。今天,我们受到工程师数量的限制。明天,这些工程师将得到一群智能体的支持。我们将以前所未有的方式探索设计空间,我们将使用今天就在使用的工具。我认为工具的使用将导致软件公司的业务猛增。
这之所以还没有发生,是因为智能体目前还不够擅长使用它们的工具。要么这些公司自己构建智能体,要么智能体变得足够优秀以至于能够使用那些工具。我认为这将是两者的结合。
Dwarkesh: 我看你们最新的文件,你们在代工厂、内存和封装方面有近 1000 亿美元的采购承诺。SemiAnalysis 报道说,你们将拥有 2500 亿美元的这类采购承诺。一种解释是,英伟达的护城河实际上是你们锁定了多年的这些稀缺组件。其他人可能有加速器,但他们能获得制造它的内存吗?他们能获得制造它的逻辑芯片吗?这真的是英伟达未来几年的巨大护城河吗?
Jensen: 这是我们能做到的而别人很难做到的事情之一。我们在上游做出了巨大的承诺。其中一些是明确的,也就是你提到的这些承诺。有些是隐含的。例如,我们供应链上游的许多投资都是因为我向那些 CEO 们明确表示:“让我告诉你这个行业将有多大,让我向你解释原因,让我和你一起推理,让我给你看我所看到的。”作为通知、启发和使各行各业上游 CEO 保持一致的这一过程的结果,他们愿意进行投资。
为什么他们愿意为我而不是别人进行投资?原因在于他们知道我有能力购买他们的供应,并通过我的下游卖出去。事实是,英伟达的下游供应链和我们的下游需求如此之大,以至于他们愿意在上游进行投资。
如果你看看 GTC 大会,人们对它的规模和参会人数感到惊叹。这是全方位的 360 度,整个 AI 宇宙都聚集在一个地方。他们聚集在一个地方是因为他们需要互相见面。我把他们聚集在一起,这样下游就能看到上游,上游就能看到下游,所有人都能看到 AI 的进步。非常重要的一点是,他们都能见到那些 AI 原住民、所有正在建立的 AI 初创公司,以及所有正在发生的奇妙事情,这样他们就能亲眼见证我告诉他们的所有事情。
我花了很多时间直接或间接地向我们的供应链、合作伙伴和生态系统通报我们面前的机遇。有些人总是说:“Jensen,在大多数主题演讲中,总是一个接一个的发布。”但在我们的主题演讲中,总是有一部分感觉有点折磨人,因为它几乎像是在上课。事实上,这正是我心里想的。我需要确保整个供应链(上游和下游)以及生态系统了解即将发生什么,为什么会发生,什么时候发生,规模会有多大,并且能够像我一样系统地对其进行推理。
关于你描述的护城河,我们能够为一个未来去建设。如果我们未来几年的规模是一万亿美元,我们就拥有实现这一目标的供应链。如果没有我们的触达范围和我们业务的流转速度……就像有现金流一样,也有供应链流转,有客户流失。如果业务流转率很低,没有人会为一个架构建立供应链。我们能够维持这种规模,仅仅是因为我们的下游需求太大了。而且他们看到了,听到了,他们看到这一切正在到来。这使我们能够以我们目前这样大的规模去做我们所做的事情。
Dwarkesh: 我确实想更具体地了解上游是否能跟上。多年来,你们的收入一直在逐年翻倍。你们为世界提供的浮点运算能力逐年增加了两倍多。在这个规模上还能翻倍,真的是不可思议的。但你看看逻辑芯片。你们是台积电 N3 节点最大的客户,也是 N2 节点最大的客户之一。根据 SemiAnalysis 的数据,今年整个 AI 领域将占据 N3 产能的 60%,明年将达到 86%。如果你已经占据了多数,你怎么翻倍?你怎么年复一年地做到这一点?我们现在是不是处于这样一个阶段:由于上游的限制,AI 计算的增长率必须放缓?你看到解决这个问题的办法了吗?归根结底,我们怎么能年复一年地多建两倍的晶圆厂呢?
Jensen: 在某种程度上,瞬时需求大于全球上下游的整体供应。在任何一个瞬间,我们都可能受到“水管工”数量的限制,这确实发生了。(笑)
Dwarkesh: 水管工应该受邀参加明年的 GTC。
Jensen: 好主意。但这是一个好情况。你希望一个行业的瞬时需求大于该行业的总供应量。相反的情况显然没那么好。如果我们相差太远,如果某一个特定的组件相差太远,整个行业就会蜂拥而至去解决它。
例如,注意现在人们已经不太怎么谈论 CoWoS 了。原因在于,在过去的两年里,我们投入了极大的精力去解决它。我们翻倍,再翻倍,翻了好几个倍。现在我认为我们的状况相当不错。台积电现在知道 CoWoS 的供应必须跟上其他逻辑芯片需求和内存需求的步伐。他们正在以与扩大逻辑芯片产能相同的水平,来扩大 CoWoS 和未来封装技术的产能。
这太棒了,因为很长一段时间以来,CoWoS 和 HBM 内存都算是比较小众的特种产品。但它们现在不再是特种产品了。人们现在意识到它们是主流的计算技术。当然,我们现在更有能力影响更大范围的供应链。
在 AI 革命之初,我现在说的所有事情,我五年前就在说了。有些人相信了并投资了,例如 Sanjay 和美光团队。我仍然清楚地记得那次会议,我清楚地说明了将要发生什么,为什么会发生,以及今天的预测。他们真的加倍投入了。我们在 LPDDR 和 HBM 内存方面与他们合作,他们进行了大力投资。显然,这对那家公司来说是巨大的利好。有些人来得晚了一点,但现在他们都来了。
这些瓶颈中的每一个都得到了极大的关注。现在我们要提前数年预判瓶颈。例如,我们过去几年与 Lumentum、Coherent 以及硅光子生态系统的投资,真正重塑了供应链。我们围绕台积电建立了一个完整的供应链。我们在 COUPE 上与他们合作,发明了一大堆技术,并将这些专利授权给供应链,以保持其开放性。
我们正在通过发明新技术、新工作流、诸如双面探测这样的新测试设备、投资公司并帮助他们扩大产能来为供应链做准备。你可以看到,我们正在努力塑造生态系统,以便供应链准备好支持这种规模。
Dwarkesh: 似乎有些瓶颈比其他瓶颈更容易解决。扩大 CoWoS 产能与扩大……
Jensen: 我刚才说的是最难解决的瓶颈,也就是水管工和电工。这也是我对那些宣扬“工作终结”和“工作会被抹杀”的末日论者感到担忧的原因之一。如果我们劝退人们不要当软件工程师,我们就会面临软件工程师短缺。同样的预测十年前也发生过。有些末日论者告诉人们,“无论你做什么,都不要当放射科医生。”你可能在网上还能听到那些视频说,放射科将是第一个消失的职业,世界不再需要任何放射科医生了。猜猜我们现在缺什么?放射科医生。
Dwarkesh: 回到你刚才说的一点,有些东西你可以扩大规模,而另一些东西……你如何实际制造出两倍于以往的逻辑芯片?归根结底,内存和逻辑芯片都受限于 EUV(极紫外光刻机)。你怎么能年复一年地让 EUV 机器数量翻倍?
Jensen: 这些都不是不可能快速扩大的。所有这些在两三年内都很容易做到。你只需要一个需求信号。一旦你能造出一台,你就能造出十台;一旦你能造出十台,你就能造出一百万台。复制这些东西并不难。
Dwarkesh: 你们在供应链上深入到什么程度?你们会去找 ASML 说,“嘿,如果展望三年后,要让英伟达实现每年两万亿的收入,我们需要多得多的 EUV 机器”吗?
Jensen: 有些我必须直接去说,有些是间接的,还有一些……如果我能说服台积电,ASML 就会被说服。我们必须考虑关键的瓶颈点。如果台积电被说服了,几年后你就会有充足的 EUV 机器。
我的观点是,没有任何一个瓶颈会持续超过两三年,两三年,没有一个会。与此同时,我们将计算效率提高了 10 倍、20 倍,在从 Hopper 到 Blackwell 的过渡中,提高了 30 到 50 倍。因为 CUDA 非常灵活,我们正在提出新的算法。我们正在开发各种新技术,以便在增加产能的同时提高效率。这些事情都不让我担心。让我担心的是我们下游的事情。比如阻止能源的能源政策……没有能源你就无法创造一个行业。没有能源,你就无法创造一个全新的制造业。我们想让美国重新工业化。我们想带回芯片制造、计算机制造和封装。我们想制造电动汽车和机器人等新事物。我们想建立 AI 工厂。没有能源,你无法建立任何这些东西,而这些事情需要很长时间。增加芯片产能,那是一个 2-3 年的问题。增加 CoWoS 产能,也是 2-3 年的问题。
Dwarkesh: 有意思。我觉得我的嘉宾有时会告诉我完全相反的事情。在这种情况下,我只是没有足够的专业技术知识来评判。
Jensen: 美妙之处在于你正在和专家交谈。(笑)
TPU 会打破英伟达对 AI 计算的垄断吗?
Dwarkesh: 确实。我想问问关于你们竞争对手的事。如果你看看 TPU,世界上排名前三的模型中,可以说是 Claude 和 Gemini 这两个都是在 TPU 上训练的。这对英伟达的未来意味着什么?
Jensen: 我们构建的是一个截然不同的东西。英伟达构建的是加速计算,而不是“张量处理单元”(TPU)。加速计算被用于各种各样的事情:分子动力学、量子色动力学、数据处理、数据帧、结构化数据和非结构化数据。它还用于流体动力学和粒子物理学。此外,我们将其用于 AI。加速计算要多样化得多。
尽管 AI 是今天的话题,显然也非常重要且有影响力,但计算的范围远不止于此。英伟达重塑了计算的方式,从通用计算走向了加速计算。我们的市场触达范围远大于任何 TPU 或 ASIC 所能达到的。
如果你看看我们的地位,我们是唯一一家加速各种应用程序的公司。我们拥有一个庞大的生态系统。因此,各种框架和算法都在英伟达上运行。因为我们的计算机被设计为可以由其他人操作,任何运营商都可以购买我们的系统。对于大多数那些自研系统,你必须自己当运营商,因为它们在设计之初就没打算做得足够灵活以便他人操作。因为任何人都可以操作我们的系统,所以我们存在于每个云服务中,包括 Google、Amazon、Azure 和 OCI。
如果你想运营它用于出租,你最好在许多行业拥有一个庞大的客户生态系统来作为你的包销商。如果你想为自己运营它,我们显然有能力帮助你自己运营,就像我们为埃隆(马斯克)的 xAI 所做的那样。因为我们可以赋能任何公司和任何行业的运营商,你可以用它来为礼来公司(Lilly)建立一个用于科学研究和药物发现的超级计算机。我们可以帮助他们运营自己的超级计算机,并将其用于我们所加速的整个药物发现和生物科学的多样化领域。就是有这么一大堆应用是我们可以解决,而 TPU 无法做到的。
英伟达构建的 CUDA 也是一个出色的张量处理单元,但它同时处理数据处理、计算、AI 等每一个生命周期。我们的市场机会要大得多,我们的触达范围要广得多。因为我们现在支持世界上的每一个应用,你可以在任何地方构建英伟达的系统,并知道会有客户需要它。这是非常不同的。
Dwarkesh: 这是一个很长的问题。你们的收入非常可观,但你们每个季度 600 亿美元的收入并不是来自制药和量子计算。你们之所以能赚到这些钱,是因为 AI 是一项前所未有的技术,并且正以前所未有的速度增长。那么问题就变成了:具体对 AI 来说,什么是最好的?
我不在细节中,但我与我的 AI 研究员朋友交谈,他们说:“看,当我使用 TPU 时,它是一个大型的脉动阵列(systolic array),非常适合做矩阵乘法;而 GPU 非常灵活。当你有大量分支或不规则内存访问时,它很棒。” 但是 AI 是什么?它只是这些非常可预测的矩阵乘法,一次又一次地重复。你不需要为了线程调度器或在线程和内存库之间切换而放弃任何裸片面积。而 TPU 确实针对目前上线的这种收入和计算用例的大量增长进行了优化。我想知道你对此有何反应。
Jensen: 矩阵乘法是 AI 的一个重要部分,但不是唯一部分。如果你想提出一种新的注意力机制,以不同的方式解耦,或者发明一种全新的架构——比如混合 SSM——你需要一个通常可编程的架构。如果你想创建一个融合了扩散和自回归技术的模型,你需要一个通常可编程的架构。我们能运行你能想象到的任何东西。这就是优势。它使得发明新算法变得容易得多,因为它是一个可编程的系统。
发明新算法的能力才是真正使 AI 快速进步的原因。像任何其他东西一样,TPU 受到摩尔定律的影响,我们知道它正以每年约 25% 的速度增长。真正实现 10 倍或 100 倍飞跃的唯一方法是每年从根本上改变算法及其计算方式。这是英伟达的根本优势。我们之所以能让 Blackwell 比 Hopper 提升 50 倍……当我第一次宣布 Blackwell 的能效将是 Hopper 的 35 倍时,没有人相信。然后 Dylan 写了一篇文章,说我“留了一手”,其实是 50 倍。你不可能合理地仅仅依靠摩尔定律做到这一点。
我们解决这个问题的方法是采用新模型,比如 MoE(混合专家模型),这些模型是在计算系统中并行化、解耦和分布的。如果没有能力真正深入并通过 CUDA 提出新的内核,真的很难做到这一点。这是我们架构的可编程性与英伟达是一家极致协同设计(co-design)公司的结合。我们甚至可以将一些计算卸载到架构网络本身,比如 NVLink,或者通过 Spectrum-X 卸载到网络中。我们可以同时影响处理器、系统、网络架构、库和算法。如果没有 CUDA 来做这件事,我甚至不知道该从哪里开始。
【赞助商播报环节】 Dwarkesh: 我的赞助商 Crusoe 是首批提供英伟达 Blackwell 和 Blackwell Ultra 平台的云之一。他们刚刚宣布计划在今年晚些时候部署英伟达 Vera Rubin。但获得最先进的硬件只是故事的一部分。例如,大多数推理引擎已经为单个用户的前向传递执行 KV 缓存。但 Crusoe 在多个用户和 GPU 之间执行此操作。因此,如果有一千个智能体在同一个系统提示上运行,Crusoe 只需计算一次 KV 缓存,集群中的每个 GPU 都可以使用它。这随着系统变得越来越具有智能体特征并需要更长的前缀来使用工具和访问文件时变得尤为重要。在最近的基准测试中,Crusoe 能够提供比 vLLM 快高达 10 倍的首字生成时间,以及高达 5 倍的吞吐量。这只是你应该在 Crusoe 运行推理工作负载的众多原因之一。如果你需要 GPU 进行训练,你也不需要切换云。Crusoe 也能满足你的需求。
Dwarkesh: 这触及了关于英伟达客户群的一个有趣问题。你们 60% 的收入来自那五大超大规模云服务商(Hyperscalers)。在一个由不同客户(比如说,运行实验的教授们)组成的时代,他们需要 CUDA。他们不能使用其他加速器。他们只需要运行带有 CUDA 的 PyTorch,并优化一切。
但是这些超级云厂商有资源编写自己的内核。事实上,为了获得他们特定架构所需的最后 5% 的性能,他们必须这样做。Anthropic 和 Google 主要运行他们自己的加速器或运行 TPU 和 Trainium。但即便是使用 GPU 的 OpenAI,也有 Triton,因为他们需要自己的内核。具体到 CUDA C++,与其使用 cuBLAS 和 NCCL,他们拥有自己的可以编译到其他加速器上的堆栈。如果你大多数客户都能并且确实为 CUDA 制造了替代品,那么在多大程度上,CUDA 真的是在英伟达上实现前沿 AI 的关键?
Jensen: CUDA 是一个丰富的生态系统。如果你想在任何计算机上首先进行构建,首选在 CUDA 上构建是非常明智的。因为生态系统如此丰富,我们支持每一个框架。如果你想创建自定义内核……例如,我们在 Triton 方面做出了巨大贡献。所以 Triton 的后端包含了大量的英伟达技术。我们很高兴能帮助每个框架变得尽可能强大。
有很多很多的框架。有 Triton、vLLM、SGLang 等等。现在有一大堆新的强化学习框架涌现,比如 verl 和 NeMo RL。随着训练后处理和强化学习的发展,那整个领域正在爆炸式增长。所以,如果你想在一个架构上进行构建,在 CUDA 上构建是最合理的,因为你知道这个生态系统非常棒。
你知道如果出现问题,更可能是你的代码出了问题,而不是底层堆如山的代码出了问题。不要忘记你在构建这些系统时要处理的代码量。当某些东西不工作时,是你自己的问题还是计算机的问题?你肯定希望永远是你自己的问题,并且能够信任计算机。显然,我们自己也还有很多 bug,但我们的系统经过了充分的测试,你至少可以在这个基础上进行构建。这就是第一点:生态系统的丰富性、可编程性和能力。
第二件事是,如果你是一个开发任何东西的开发者,你最想要的一件事就是一个庞大的安装基数(install base)。你希望你编写的软件能在很多其他计算机上运行。你不仅仅是为你自己构建软件。你是为你的机器集群或其他人的机器集群构建的,因为你是一个框架构建者。英伟达的 CUDA 生态系统归根结底是它的巨大财富。
我们现在外面有几亿个 GPU。每个云都有它。可以追溯到 A10、A100、H100、H200、L 系列、P 系列。有一大堆。它们有各种尺寸和形状。如果你是一家机器人公司,你希望那个 CUDA 堆栈能实际运行在机器人本身里面。我们真的是无处不在。庞大的安装基数意味着一旦你开发了软件或模型,它在任何地方都能发挥作用。这真是难以置信的宝贵。
最后,我们在每一个云服务中都存在,这使得我们真正独一无二。如果你是一家 AI 公司或开发者,你并不确切知道你将与哪家云服务提供商合作,或者你想在哪里运行它。我们在任何地方都能运行,如果你愿意,甚至可以在你本地(on-prem)运行。生态系统的丰富性、安装基数的广度以及我们存在的广泛性的结合,使得 CUDA 具有无可估量的价值。
Dwarkesh: 这很有道理。我想我好奇的是,这些优势对你的主要客户来说是否真的很重要。对于许多人来说可能很重要。能够真正构建自己软件堆栈的那类人,构成了你大部分的收入。特别是如果你走向一个世界,在这个世界里,AI 在那些具有紧密验证循环、可以通过强化学习(RL)提升的领域变得特别出色……如何编写一个能最高效地跨规模执行注意力机制或 MLP 的内核?这是一个非常可验证的反馈循环。
所有这些超大规模云服务商都能为自己编写这些自定义内核吗?英伟达仍然具有极好的性价比,所以他们可能仍然倾向于使用英伟达。但问题就变成了,这是否只变成了一个“谁能用给定价格提供最佳规格、最佳浮点运算能力和内存带宽”的问题?而历史上,英伟达在整个 AI 硬件和软件领域一直拥有且仍然拥有最好的利润率,超过 70%,因为有这个 CUDA 护城河。问题是,如果你的大多数客户能够负担得起自己去构建(替代方案),绕过 CUDA 护城河,你能维持这些利润率吗?
Jensen: 我们分配给这些 AI 实验室的工程师数量是极其惊人的,与他们合作,优化他们的软件栈。原因在于,没有人比我们更了解我们的架构。这些架构不像 CPU 那样是通用目的的。CPU 有点像凯迪拉克。它是一辆很好的巡航车。它从来不会开得太快。每个人都开得很好。它有定速巡航,一切都很简单。
但在很多方面,英伟达的 GPU,我们的加速器,就像 F1 赛车。我可以想象每个人都能以一百英里的时速驾驶它,但要把它的性能推向极限需要相当专业的专业知识。我们使用大量的 AI 来创建我们拥有的内核。我相当确定我们在相当长的一段时间内仍然会被需要。我们的专业知识经常能帮助我们的 AI 实验室合作伙伴轻松地从他们的软件栈中再榨取 2 倍的性能。当我们完成优化他们的软件栈或优化某个特定内核时,他们的模型速度提升 3 倍、2 倍、50%,这并不罕见。
这是一个巨大的数字,特别是当你谈论他们拥有的机群安装基数时,也就是他们拥有的所有 Hopper 和 Blackwell 时。当你将其增加两倍时,那等于使收入翻倍。那直接转化为收入。英伟达的计算堆栈是世界上在 TCO(总拥有成本)下性能最好的,毫无疑问。没有人能向我证明,今天世界上有任何一个平台拥有更好的性能/TCO 比率。没有一家公司。
事实上,相关的基准测试就摆在那里。Dylan 的 InferenceMAX 就放在那里供所有人使用,而没有一个……TPU 不来参与,Trainium 不来参与。我鼓励他们使用 InferenceMAX 并展示他们令人难以置信的推理成本优势。这真的很难。没有人愿意出现。在 MLPerf 测试中也是。我很乐意听到 Trainium 展示他们总是声称的 40% 的优势。我很乐意听到他们展示 TPU 的成本优势。在我的脑海中,这毫无道理。从第一性原理来看,这毫无道理。
所以我认为我们如此成功的原因,仅仅是因为我们的 TCO 太棒了。其次,你说我们 60% 的客户是前五大公司,但其中大部分业务是外部业务。例如,在 AWS 中的绝大多数英伟达算力是为外部客户服务的,而不是供内部使用的。我们在 Azure 的绝大多数客户,显然都是外部的。我们在 OCI 的所有客户都是外部的,不是内部使用的。
他们偏爱我们的原因是因为我们的触达范围太广了。我们可以为他们带来世界上所有优秀的客户。他们都是基于英伟达构建的。而所有这些公司之所以建立在英伟达之上,是因为我们的影响力和通用性如此之大。
所以我认为飞轮实际上是:安装基数、我们架构的可编程性、我们生态系统的丰富性,以及世界上有如此多的 AI 公司这一事实。现在有成千上万家。如果你是那些 AI 初创公司中的一员,你会选择什么架构?你会选择最丰富的架构。我们在世界上是最丰富的。你会选择拥有最大安装基数的那个。我们是最大的安装基数。你会选择拥有丰富生态系统的那个。这就是飞轮。
这就是为什么综合起来看:第一,我们的每美元性能如此之好,以至于他们拥有最低的代币成本;第二,我们的每瓦性能是世界上最高的。因此,如果其中一家公司,我们的合作伙伴,建立了一个一吉瓦(1 GW)的数据中心,那个一吉瓦的数据中心最好能提供最大量的收入和 Token 数量,这直接转化为收入。你希望它生成尽可能多的 Token,最大化那个数据中心的收入。我们是世界上每瓦产生 Token 最多的架构。最后,如果你的目标是出租基础设施,我们拥有世界上最多的客户。这就是飞轮运转的原因。
Dwarkesh: 有意思。我想问题归结为,这里的实际市场结构是什么?因为即使有其他公司……原本可能存在一个数以万计的 AI 公司平分计算份额的世界。但即便是通过这五家超大型云服务商,真正在 Amazon 上使用计算资源的是 Anthropic、OpenAI,以及这些本身就买得起、也有能力让不同的加速器运转起来的大型基础实验室。
Jensen: 不,我认为你的前提是错的。
Dwarkesh: 也许吧。但让我问你一个稍微不同的问题。
Jensen: 但是回来一定要让我纠正你的前提,因为这对 AI 来说太重要了。这对科学的未来太重要了。这对工业的未来太重要了。那个前提……听着——
Dwarkesh: 让我先把问题问完,然后我们可以一起讨论。如果关于价格、性能、每瓦性能等的所有这些都是真的,为什么你认为实际情况是,例如,Anthropic 就在几天前宣布他们与 Broadcom 和 Google 达成了一项价值数十吉瓦的协议,为其大部分计算使用 TPU?显然对于 Google 来说,TPU 是主要的计算力。所以我看这些大型 AI 公司,似乎他们很多计算量……曾经有一段时间全是英伟达的,现在不是了。所以我很好奇如何解释,如果纸面上的这些事情是真的,他们为什么还要选择其他加速器?
Jensen: Anthropic 是一个特例,而不是趋势。如果没有 Anthropic,TPU 怎么会有任何增长?百分之百是因为 Anthropic。如果没有 Anthropic,Trainium 怎么会有任何增长?百分之百是因为 Anthropic。我认为这是众所周知、非常清楚的。并不是说 ASIC 机会比比皆是。只有一个 Anthropic。
Dwarkesh: 但是 OpenAI 也和 AMD 达成了协议……他们正在研发自己的 Titan 加速器。
Jensen: 是的,但我认为我们都可以承认他们绝大部分还是使用英伟达。我们还会一起做很多工作。我不反对其他人尝试使用其他东西。如果他们不尝试这些其他东西,他们怎么知道我们的东西有多好?有时你需要被提醒一下。我们必须不断努力以赢得我们现在的地位。
总会有很多自吹自擂的说法。看看被取消的 ASIC 数量就知道了。并不是说你要造一个 ASIC……你仍然必须造出一个比英伟达更好的东西。造出一个比英伟达更好的东西并非易事。实际上,这不太合理。英伟达肯定是漏掉了什么严重的东西(才会被超越)。由于我们的规模、我们的速度,我们是世界上唯一一家每年都在快速推陈出新的公司。每一年都有巨大的飞跃。
Dwarkesh: 我猜他们的逻辑是,“嘿,它不需要比你更好。它只需要不比你差 70% 就行了”,因为他们付给你的利润率是 70%。
Jensen: 不,别忘了,即便在 ASIC 领域,利润率也是相当高的。假设英伟达的利润率是 70%。但 ASIC 的利润率是 65%。你真正省下了什么?
Dwarkesh: 你的意思是付给 Broadcom 之类的公司的利润?
Jensen: 是的,当然。你总得付钱给某人。据我所知,ASIC 的利润率非常棒。他们自己也是这么认为的。他们对令人难以置信的 ASIC 利润率感到非常自豪。
所以,你问了为什么的问题。很久以前,我们只是没有能力做到这一点。当时,我没有深刻体会到建立一个像 OpenAI 和 Anthropic 这样的基础 AI 实验室有多困难,也没有意识到他们需要供应商自己投入巨资。我们当时并没有处于能够向 Anthropic 投入数十亿美元以换取他们使用我们的算力的位置。
但 Google 和 AWS 可以。他们在初期投入了巨额资金,作为回报,Anthropic 使用了他们的算力。我们当时只是没有处于能够这样做的位置。我要说,我的错误在于我没有深刻体会到他们真的没有其他选择,风险投资机构(VC)永远不会把 50 亿到 100 亿美元的投资投入到一个 AI 实验室中,去期望它最终变成 Anthropic。那是我的失误。
但即使我当时明白了,我认为我们当时也没有能力这么做。但我不会再犯同样的错误了。我很高兴投资 OpenAI,我很高兴帮助他们扩大规模,我相信这样做是必不可少的。然后,当我有能力时,当 Anthropic 找到我们时,我很高兴成为他们的投资者,很高兴帮助他们扩大规模。我们当时只是无法做到。如果我能让一切倒流——而英伟达在当时能像现在一样庞大——我会非常乐意这么做。
为什么英伟达不自己成为一家超大云厂商(Hyperscaler)?
Dwarkesh: 这其实挺有趣的。多年来,英伟达一直是 AI 领域中最赚钱的公司,赚了大量的钱。现在你们开始投资了。据报道,你们对 OpenAI 投资了高达 30 亿美元,对 Anthropic 投资了 100 亿美元。但现在他们的估值已经上涨了,而且我相信还会继续上涨。
如果这些年来你们一直向他们提供计算能力,你们看到了发展趋势,而他们在几年前(甚至有些只是一年前)的价值只有现在的十分之一,且你们拥有大把现金——那完全可能存在这样一种情况:要么英伟达自己成为一个基础模型实验室,或者进行巨额投资以促成这一切,要么你们本可以在更早的时候以比现在低得多的估值达成目前的交易。而且你们有资金这么做。所以我很好奇,为什么不早点这么做呢?
Jensen: 我们是一旦有能力就去做了。一旦我们有能力,我们就去做了,如果可以的话,我本会更早采取行动。在 Anthropic 需要我们这么做的时候,我们只是没有处于能够这样做的位置。这当时并不在我们的认知范围内。
Dwarkesh: 怎么说?是因为现金流的问题吗?
Jensen: 是的,投资的规模问题。我们当时从未在公司外部进行过投资,也从未投资过那么多。我们没有意识到我们需要这样做。我一直以为,天哪,他们大可以直接去找风投融资,就像所有公司做的那样。但是他们想做的事情是无法通过风投完成的。OpenAI 想做的事情无法通过风投完成。我现在认识到了。我当时不知道。那是他们的天才之处。那是他们聪明的地方。他们当时就意识到必须采取类似的做法。我很高兴他们这样做了。尽管我们导致 Anthropic 不得不去找其他人,但我仍然为这一切的发生感到高兴。Anthropic 的存在对世界是件好事。我为之感到高兴。
Dwarkesh: 你们现在仍然赚着大量的钱,而且每个季度的收入都在不断增加。有遗憾也是正常的。那么问题依然存在:好的,现在我们走到了这一步,你们手握不断赚取的大量资金,英伟达应该用这些钱做什么?
有一种答案是,为了将资本支出(CapEx)转化为这些实验室的运营支出(OpEx)以便他们租用算力,涌现出了一整个充当中间商的生态系统。因为芯片真的很贵,虽然在它们的生命周期内能赚很多钱,因为 AI 模型变得越来越好。所以它们产生的价值、它们的 Token 正在增值,但建立起这些算力设施非常昂贵。
英伟达有资金来进行这种资本支出。事实上,据报道,你们为 CoreWeave 提供了高达 63 亿美元的债务担保,并投资了 20 亿美元。英伟达为什么不自己建立云服务?英伟达为什么不亲自成为一家超大云服务商(Hyperscaler)并把这些算力租出去?你们有足够的现金来做这件事。
Jensen: 这是公司的一贯理念,我认为这是明智的。我们应该尽我们所能做必要的事,同时尽量少做不必要的事。这意味着,我们在构建计算平台方面所做的工作,如果我们不做,我真诚地相信它就不会被完成。如果我们没有承担我们所承担的风险——如果我们没有像那样构建 NVLink,如果我们没有构建整个软件栈,如果我们没有以那种方式创建生态系统,如果我们没有全身心投入到 20 年的 CUDA 开发中(并在大部分时间里亏钱)——如果我们没有这么做,其他人也不会做。
如果我们没有创建所有特定领域的 CUDA-X 库……大约十五年前,我们进军特定领域的库,因为我们意识到如果我们不创建这些特定领域的库——无论是因为光线追踪还是图像生成,甚至是 AI 的早期工作、这些模型,如果是用于数据处理、结构化数据处理或矢量数据处理——如果我们不创建它们,没有人会。我对此百分之百确定。
我们为计算光刻技术创建了一个名为 cuLitho 的库。如果我们没有创建它,没有人会。因此,如果我们没有做我们所做的事情,加速计算就不会像现在这样发展。所以我们应该做这件事。我们应该全心全意倾尽公司所有的力量去完成这件事。
然而,世界上有很多云服务商。如果我不做,其他人也会出现。所以遵循“尽我们所能做必要的事,同时尽量少做不必要的事(as little as possible)”的秘诀或哲学——这种哲学今天仍存在于我们公司。我做的一切都通过那个镜头来审视。就云服务而言,如果我们不支持 CoreWeave 的存在,这些新一代云服务(neoclouds)、这些 AI 云服务就不会存在。如果我们没有帮助 CoreWeave 存在,他们就不会存在。如果我们没有支持 Nscale,他们今天就不会达到这个高度。如果我们没有支持 Nebius,他们今天就不会变成现在这样。现在他们做得非常好。
Dwarkesh: 这是一种商业模式吗?[听不清]
Jensen: 我们应该尽我们所能做必要的事,同时尽量少做不必要的事。因此我们投资于我们的生态系统,因为我希望我们的生态系统繁荣发展。我希望这个架构和 AI 能够尽可能多地与各个行业连接,尽可能多地与国家连接,使整个地球能够建立在 AI 之上,并建立在美国的技术栈之上。这个愿景正是我们正在追求的。
现在,你提到的一件事……有那么多伟大、了不起的基础模型公司,我们试图投资所有这些公司。这也是我们所做的一件事。我们不挑选赢家。我们需要支持所有人。这是我们这样做的乐趣之一。对我们的业务来说也是势在必行的。但我们也会特意不去挑选赢家。所以当我投资其中一家时,我投资所有的。
Dwarkesh: 你为什么特意不去挑选赢家?
Jensen: 首先,这不是我们的工作。其次,在英伟达刚成立时,有 60 家 3D 图形公司。我们是唯一幸存下来的。如果你把那 60 家图形公司列出来,问自己哪一家会成功,英伟达可能会排在“最不可能成功”名单的榜首。
这远远早于你的时代,但英伟达早期的图形架构是完全错误的。不是错了一点点。我们创造了一个完全错误的架构,开发者根本不可能支持它。它本来是永远不会成功的。我们基于良好的第一性原理对其进行了推理,但得出了错误的解决方案。每个人都会把我们排除在外。然而我们现在在这里。所以我有足够的谦逊来认识到这一点。不要挑选赢家。要么让他们自己照顾自己,要么照顾好他们所有人。
Dwarkesh: 有一点我不明白,你说,“看,我们不优先考虑这些新兴云厂商仅仅因为他们是新兴云厂商而我们想要支持他们。”但你同时也列举了一堆新兴云厂商,说如果不是因为英伟达他们就不会存在。这两点怎么兼容呢?
Jensen: 首先,他们必须有存在的意愿,并且来找我们寻求帮助。当他们想要存在,并且他们有商业计划、专业知识和热情……显然,他们自己也必须具备一些能力。但归根结底,如果他们需要一些投资才能起步,我们会支持他们。但他们越快让自己的飞轮转动起来……
你的问题是,“我们想进入融资业务吗?”答案是否定的。有专门做融资业务的人,我们宁愿与所有融资行业的人合作,也不愿自己成为金融家。我们的目标是专注于我们所做的事情,保持我们的商业模式尽可能简单,并支持我们的生态系统。
当像 OpenAI 这样的人在他们 IPO 之前需要 300 亿美元规模的投资时,而我们深信他们,我深信他们将会是一个……嗯,他们今天已经是一家非凡的公司了。他们将成为一家令人难以置信的公司。世界需要他们存在。世界希望他们存在。我希望他们存在。他们有顺风的优势。让我们支持他们,让他们扩大规模。那些投资我们去做了,因为他们需要我们这样做。但我们并没有试图做得尽可能多。我们试图做得尽可能少。
【赞助商播报环节】 Dwarkesh: 我花了很多时间在 Google Docs 和聊天机器人之间来回复制粘贴文本。因此我构建了一个基本上可以说是“用于写作的 Cursor”,它以我认为 AI 联合研究员应有的方式运作。我可以标记它,它可以通过内联评论线程与我交谈,帮助我深入挖掘和头脑风暴。我周末用 Cursor 和他们新的 Composer 2 模型构建了整个东西。使用许多具备智能体特性的编码工具时,我感觉自己完全不知道表面下到底发生了什么。我不得不放弃控制权,祈祷一切顺利。但 Cursor 允许我尝试许多不同的想法,同时掌控实现的过程。我在智能体窗口中进行了大部分头脑风暴,在落实了一些基础文件后,我使用差异对比窗口(diff window)来追踪变化。有几次需要手动快速调整时,我就直接使用编辑器。如果你想自己尝试我的 AI 联合研究员,我已在描述中放上了 GitHub 仓库链接。如果你有一个一直想构建的工具,你应该让它成真。前往 cursor.com/dwarkesh 开始吧。
Dwarkesh: 这可能是一个显而易见的问题,但多年来我们一直生活在这种 GPU 短缺的境地,而且现在短缺加剧了,因为模型变得越来越好。
Jensen: 我们存在 GPU 短缺。是的。
Dwarkesh: 英伟达以分配稀缺资源而闻名,而且不仅仅是基于出价高者得,而是基于,“嘿,我们要确保这些新兴云服务商的存在。让我们给 CoreWeave 分一些,给 Crusoe 分一些,给 Lambda 分一些。” 为什么这对英伟达有好处?首先,你同意这种正在“分割市场”的描述吗?
Jensen: 不。不。你的前提完全错了。我们在这些事情上考虑得非常周全。首先,如果你不下采购订单(PO),说再多的话也无济于事。在我们拿到 PO 之前,我们能做什么?所以第一件事是,我们非常努力地与大家合作完成预测,因为建造这些东西需要很长时间,建造数据中心也需要很长时间。我们通过预测来使我们的需求和供应等保持一致。好吗?那是首要工作。
第二,我们试图与尽可能多的人一起进行预测,但在最终分析中,你仍然必须下订单。也许,不管什么原因,你没有下订单。我能怎么办?在某些时候,原则是先入先出(first in, first out)。
但除此之外,如果你的数据中心还没有准备好,或者某些组件还没准备好,导致你无法建立数据中心,我们可能会决定先服务另一位客户。这只是为了最大化我们自己工厂的吞吐量。我们可能会在方面做一些调整。除此之外,优先级的原则是先入先出。你必须下订单。如果你不下订单……
当然,外面有很多传言。例如,所有的这些传言都起源于一篇关于拉里(Larry)和埃隆(Elon)和我共进晚餐的文章,说他们在那乞求获得 GPU。那根本没有发生过。我们确实共进晚餐了。我们绝对一起吃饭了,那是一顿非常愉快的晚餐。但他们从来没有在任何时候乞求过 GPU。他们只需要下订单。一旦他们下了订单,我们会尽力把产能给到他们。我们并不复杂。
Dwarkesh: 好的。所以听起来有一个队列,然后基于你的数据中心是否准备好以及你下订单的时间,你在某个特定时间得到它们。但这听起来仍然不是出价最高者得。是有什么理由这样做吗……?
Jensen: 我们从不那样做。
Dwarkesh: 好的。为什么不直接价高者得?
Jensen: 因为这是一种糟糕的商业惯例。你设定好价格,然后人们决定买还是不买。我知道芯片行业的其他人会在需求较高时改变价格,但我们从不这样做。这从来都不是我们的做法。你可以信赖我们。我更喜欢做一个可靠的人,成为这个行业的基础。你不需要去猜测。如果我们给你报了价,那就是这个价。就这样。如果需求冲破天际,那就随它去。
Dwarkesh: 在另一端,这也是为什么你们与台积电(TSMC)有着富有成效的关系,对吧?
Jensen: 是的,英伟达与他们合作,我想快 30 年了。英伟达和台积电没有法定合同。这总是有一种粗略的公平(rough justice)。有时我是对的,有时我是错的。有时我得到了更好的交易,有时我得到了更差的交易。但总的来说,这种关系令人难以置信。我可以完全信任他们。我可以完全依靠他们。
你可以对英伟达信赖的一件事是:今年,Vera Rubin 将会令人难以置信。明年,Vera Rubin Ultra 将会问世。后年,Feynman 将会问世。再下一年,我还没公布名字。每一年你都可以信赖我们。你去世界上找另一支 ASIC 团队——随你挑哪个 ASIC 团队——看看你能不能说:“我可以押上全部身家,我可以押上我整个业务打赌,你们每年都会在这里为我提供支持。我的 Token 成本每年都会降低一个数量级。我可以像信任时钟一样信任它。”
我刚才说了关于台积电的话。对于历史上任何其他代工厂,你都不可能说出那样的话。但你今天可以这样评价英伟达。你每一年都能信赖我们。如果你想买价值十亿美元的 AI 工厂算力,没问题。如果你想买一亿美元,没问题。你想买一千万美元,或者只买一个机架,没问题。或者只买一张显卡,好的,没问题。如果你想下一个千亿美元的 AI 工厂订单,也没问题。我们是当今世界上唯一一家你能这么说的公司。对于台积电,我也可以这样说。我想买一个,或者想买十亿个,都没问题。我们只需要经历一个成熟的企业所应该走的规划流程。
我认为英伟达能够成为世界 AI 产业基础的这种能力,是我们花了几十年时间才取得的地位。这需要巨大的承诺,巨大的奉献。我们公司的稳定性、一致性非常重要。
我们应该向中国出售 AI 芯片吗?
Dwarkesh: 好的。我想问问关于中国的问题。实际上我不知道自己对是否向中国出售芯片有什么看法,但我喜欢在嘉宾面前扮演“魔鬼代言人”。所以当支持出口管制的 Dario 上节目时,我问他,为什么美国和中国不能在数据中心里各自拥有一批天才?但因为你处于对立面,我会反过来问你。
一种思考方式是,Anthropic 几天前刚宣布了 Mythos 预览版。这个叫 Mythos 的模型,他们甚至没有公开发布,因为他们说它具有如此强大的网络攻击能力,我们认为世界还没有准备好,直到我们确保这些零日漏洞(zero-days)被修补好。但他们说它在每一个主要的操作系统、每一个浏览器中发现了数以千计的高危漏洞。它在 OpenBSD 中发现了一个,这可是一个专门设计用来防止零日漏洞的操作系统。它发现了一个已经存在了 27 年的漏洞。
所以,如果中国的公司、实验室和政府能够获得 AI 芯片来训练像 Claude Mythos 这样具备网络攻击能力模型,并用更多的算力运行数百万个实例,问题是,这是否会对美国公司、美国国家安全构成威胁?
Jensen: 首先,Mythos 是在相当普通的算力容量上训练出来的,且用量也相当普通。当然,是由一家非凡的公司训练的。训练它所需的算力容量和类型在中国是大量存在的。所以你首先必须意识到中国有芯片。他们制造了世界上 60% 的主流芯片,可能更多。这对他们来说是一个非常大的产业。他们有世界上最伟大的一些计算机科学家。正如你所知,所有这些 AI 实验室中的绝大多数 AI 研究员都是华人。他们拥有世界上 50% 的 AI 研究人员。
所以问题在于,考虑到他们已经拥有的所有资产——他们有充足的能源,他们有很多芯片,他们有大多数 AI 研究员——如果你担心他们,创造一个安全世界的最佳方法是什么?把他们视为受害者,把他们变成敌人,可能不是最好的答案。他们是一个对手(adversary)。我们希望美国赢。但我认为进行对话、开展研究对话可能是最安全的做法。
由于我们目前视中国为敌人的态度,这个领域明显缺乏对话。我们的 AI 研究员和他们的 AI 研究员必须进行交流。我们双方必须就“不将 AI 用于什么”达成一致。关于在软件中寻找 bug,当然,这正是 AI 应该做的。它会在很多软件中发现 bug 吗?当然会。有很多很多的 bug。AI 软件里也有很多 bug。那是 AI 应该做的,我很高兴 AI 已经达到了能够帮助我们提高生产力的水平。
其中被低估的一点是围绕网络安全、AI 网络安全、AI 安全和 AI 隐私的生态系统的丰富性。有一整个 AI 初创公司生态系统正试图为我们创造这样一个未来:在那里,你有一个不可思议的 AI 智能体,周围有成千上万个 AI 智能体保护它的安全,确保它不被攻破。那个未来肯定会发生。认为你会有一个到处乱跑却没人看管的 AI 智能体,这种想法有点疯狂。
我们非常清楚这个生态系统需要蓬勃发展。事实证明,这个生态系统需要开源。这个生态系统需要开放模型。他们需要开放的堆栈,以便所有这些 AI 研究员和这些伟大的计算机科学家能够构建出同样强大并能保持 AI 安全的 AI 系统。因此我们需要确保做的一件事是保持开源生态系统的活力。这是不可忽视的。其中有很多来自中国。我们不应该扼杀它。关于中国,我们当然希望美国拥有尽可能多的计算能力。我们受限于能源,但我们有很多人正在致力于解决这个问题。我们不能让能源成为我们国家的瓶颈。
但我们还希望确保世界上所有的 AI 开发者都在美国的技术栈上进行开发,并将对 AI 的贡献、进步——尤其是开源方面的——提供给美国生态系统。如果创造出两个生态系统:一个是开源生态系统,但它只在外国技术栈上运行;另一个是封闭的生态系统,在美国技术栈上运行,那将是非常愚蠢的。我认为那对美国来说将是一个可怕的结果。
Dwarkesh: 既然涉及很多方面,让我来梳理一下回应。我认为担忧点在于,回到在黑客攻击能力上的算力差异:是的,他们有计算能力,但有些估计认为,因为他们停留在 7nm 工艺——由于芯片制造出口管制,他们没有 EUV——他们实际能够产生的浮点运算能力,只有美国的十分之一。
因此,他们最终能训练出像 Mythos 这样的模型吗?是的。但问题是,因为我们有更多的算力,美国实验室能够率先达到这种能力水平。因为 Anthropic 率先达到了,他们说:“好的,我们要把它压下来一个月,给所有这些美国公司开放访问权限。他们将修补所有的漏洞,然后我们再发布。”
此外,即使他们训练出这样一个模型,大规模部署它的能力也很关键……如果你有一个网络黑客模型,拥有 100 万个实例比只有 1,000 个实例要危险得多。所以推理算力非常关键。事实上,他们有那么多优秀的 AI 研究员,这正是让人感到害怕的地方,因为是什么让这些工程师研究员变得更有生产力?是算力。如果你去问美国的任何一家 AI 实验室,他们都会说限制他们的瓶颈是算力。DeepSeek 创始人,或者 Qwen 的领导层都有引言。他们说他们受限于算力。
那么问题来了,因为美国公司拥有更多的算力,我们率先达到了 Mythos 级别的能力,让我们的社会为此做好准备,赶在中国因为算力较少而达到之前,这难道不是更好吗?
Jensen: 我们应该永远争第一,我们应该永远拥有更多。但为了让你描述的结果成真,你必须把它推向极端。那就是,他们必须完全没有计算能力。如果他们有一些计算能力,问题是他们需要多少?中国拥有的计算能力是巨大的。你谈论的是世界上第二大计算市场的国家。如果他们想整合他们的计算能力,他们有充足的算力可以整合。
Dwarkesh: 但那是真的吗?人们做了这些估计,他们说:“中芯国际实际上在工艺节点上落后了。”
Jensen: 我正要告诉你这个。好的。他们拥有的能量大得惊人。是不是这样?AI 是一个并行计算问题,不是吗?为什么他们不能把 4 倍、10 倍数量的芯片组合在一起,既然能源是免费的?他们有太多的能源了。他们有完全空置但电力供应充足的数据中心。你知道他们有鬼城,他们也有鬼城数据中心。他们有太多的基础设施容量。如果他们愿意,他们可以把更多的芯片组合在一起,即使是 7nm 的。他们制造芯片的能力是世界上最大的之一。半导体行业知道他们垄断了主流芯片。他们产能过剩。因此认为中国无法拥有 AI 芯片的想法完全是胡说八道。
当然,如果你问我,如果全世界完全没有计算能力,美国是否会遥遥领先?但那只是不存在的结果。那不是一个真实的情况。他们已经有充足的计算能力。你所担心的门槛,他们已经达到并超越了。
所以我认为你误解了 AI 是一块五层蛋糕,最底层是能源。当你有丰富的能源时,它能弥补芯片的不足。如果你有丰富的芯片,它能弥补能源的不足。例如,美国能源稀缺,这就是为什么英伟达必须不断推进我们的架构,进行这种极限协作设计(co-design),这样一来,我们能发货的为数不多的芯片——因为能源如此有限所以芯片数量受限——我们的每瓦吞吐量却能爆表。但如果你的电量完全充足,它是免费的,你还关心什么每瓦性能呢?你用不完的电。你可以用旧芯片来做。
所以 7nm 芯片本质上就是 Hopper。Hopper 的能力……我得告诉你,今天的模型很大程度上是在 Hopper,即 Hopper 这一代架构上训练的。所以 7nm 芯片足够好了。丰富的能源是他们的优势。
Dwarkesh: 但这里有一个问题,他们是否能实际制造足够多的芯片。
Jensen: 但他们确实做到了。证据是什么?华为刚刚经历了公司历史上规模最大的一年。他们出货了多少芯片?
Dwarkesh: 很多。数以百万计。
Jensen: 数以百万计远比 Anthropic 拥有的多。
Dwarkesh: 还有一个问题是中芯国际能产出多少逻辑芯片,以及多少内存……
Jensen: 我正在告诉你情况是怎样的。他们有充足的逻辑芯片,他们有充足的 HBM2 内存。
Dwarkesh: 对。但正如你所知,训练和推理这些模型的瓶颈通常是带宽。所以如果你只有 HBM2……我手头没有具体数字,但与你们最新产品相比,在内存带宽上可能差了近一个数量级,这是巨大的差异。
Jensen: 华为是一家网络公司。
Dwarkesh: 但这改变不了你需要 EUV 来生产最先进的 HBM 的事实。
Jensen: 根本不是这样。完全不是。你可以把它们连接在一起,就像我们用 NVL72 把它们连接在一起一样。他们已经展示了硅光子技术,将所有这些计算连接在一起,变成一台巨大的超级计算机。你的前提就是错的。事实是,他们的 AI 发展得很好。世界上最好的 AI 研究员,因为受限于计算,他们也会想出极其聪明的算法。
记住,我刚说过摩尔定律正在以每年约 25% 的速度发展。然而,通过卓越的计算机科学,我们仍然可以将算法性能提高 10 倍。我想要表达的是,卓越的计算机科学才是关键杠杆所在。毫无疑问,MoE 是一个伟大的发明。毫无疑问,所有不可思议的注意力机制减少了计算量。我们必须承认,AI 的大部分进步来自于算法的进步,而不仅仅是原始硬件。
现在,如果大部分进展来自算法、计算机科学和编程,你还能说他们的 AI 研究大军不是他们的根本优势吗?我们看到了。DeepSeek 不是一个无足轻重的进步。如果 DeepSeek 首发并在华为硬件上表现最好,那对我们国家来说是一个糟糕的结果。
Dwarkesh: 为什么呢?因为目前像 DeepSeek 这样的模型如果开源,可以在任何加速器上运行。为什么未来情况会改变?
Jensen: 假设它没有改变。假设它是为华为优化的,假设它是为他们的架构优化的。那将使我们处于劣势。你刚才描述的情况,我认为是个好消息。一家公司开发了软件,开发了一个 AI 模型,而它在美国的技术栈上运行得最好。我认为这是个好消息。你把它作为一个前提,认为那是坏消息。我现在告诉你什么是坏消息:那就是全世界开发的 AI 模型,在非美国硬件上运行得最好。这对我们来说是坏消息。
Dwarkesh: 我猜我只是没看到证据表明存在这种巨大的差异会阻止你切换加速器。美国实验室正在所有云上、所有不同的加速器上运行他们的模型……
Jensen: 我就是证据。你把一个为英伟达优化的模型试图运行在其他设备上试试看。
Dwarkesh: 但美国的实验室确实这么做。
Jensen: 并且它们运行得没那么好。英伟达的成功就是完美的证据。AI 模型在我们的软件栈上创建,在我们的软件栈上运行得最好这一事实,理解起来有这么不符合逻辑吗?
Dwarkesh: Anthropic 的模型在 GPU 上运行,在 Trainium 上运行,在 TPU 上运行。
Jensen: 要改变这一点必须投入大量的工作。但你去看看南半球,去中东看看。如果所有的 AI 模型开箱即用地在别人的技术栈上运行得最好,你一定是在诡辩,说这对美国是一件好事。
Dwarkesh: 但我想我没明白这个论点。假设中国公司率先研发出下一个 Mythos。他们首先发现了美国软件中的所有安全漏洞,但他们可以在英伟达硬件上做到这一点,并把它运往全球南方。他们在英伟达硬件上这样做。这怎么就是好事呢?
Jensen: 好的,它在英伟达硬件上运行——这不是好事。这不是好事。
Dwarkesh: 对,这不是好事。所以我们别让它发生。
Jensen: 为什么你认为这是完全可以替代的,如果你不卖给他们算力,它就会完全被华为替代?他们落后了,对吧?他们的芯片比你们差。这完全是……现在就有证据。他们的芯片工业规模巨大。
Dwarkesh: 你只需比较一下 H200 和华为 910C 的浮点运算、带宽或内存。性能只有二分之一到三分之一。
Jensen: 他们可以用两倍的数量。他们的用量大了一倍。
Dwarkesh: 你的论点似乎是他们有那么多准备就绪的能源,对吧?他们需要用芯片填满它。而且他们擅长制造。我确信他们最终能够靠产量超过所有人。但在这关键的几年里。
Jensen: 你所说的关键年份是指什么?
Dwarkesh: 接下来的这几年。我们会有这些能够进行所有网络攻击的模型。
Jensen: 在这种情况下,如果接下来的几年很关键,那么我们就必须确保世界上所有的 AI 模型都是在美国技术栈上建立的,在这些关键的几年里。
Dwarkesh: 如果它们是在美国技术栈上建立的,但这又如何能阻止他们发动 Mythos 级别的网络攻击呢?既然他们拥有更先进的能力?这两者之间没有任何必然保证。但如果我们先拥有它,我们就能为它做准备。
Jensen: 听着,你为什么要让 AI 产业的一整个层面失去整个市场,就为了让 AI 产业的另一个层面受益?有五个层面,每一个层面都必须成功。最需要成功的一层实际上是 AI 应用层。你为什么如此痴迷于那个 AI 模型?那一家公司?理由是什么?
Dwarkesh: 因为那些模型使得这些令人难以置信的攻击能力成为可能,而你需要算力来运行它们。能源、芯片和 AI 研究员生态系统使其成为可能。
【赞助商播报环节】 Dwarkesh: 几个月前,Jane Street 花费了约 20,000 个 GPU 小时在三个不同的语言模型中训练了后门。然后他们向我的观众发起挑战,找出触发短语。我刚刚和设计了这个谜题的 Ricson 了解了 Jane Street 收到的一些解决方案。“如果你认为基础模型在这里,带后门的模型在这里,你可以对权重进行线性插值来调整后门的强度,但你也可以对其进行外推,使后门变得更强。在某些情况下,如果你把它弄得足够强,模型就会直接吐出响应短语应该是什么。”因此,如果你不断放大基础版本和植入后门版本之间的差异,它最终应该会吐出触发短语。但这种技术仅适用于三个模型中的两个。即使是 Ricson 也不确定为什么它在另一个模型上不起作用。能够验证模型只做了你认为它做的事情,是 AI 安全中最重要的新开放性问题之一。如果你对这类问题感兴趣,Jane Street 正在招聘研究人员和工程师。前往 janestreet.com/dwarkesh 了解更多信息。
Dwarkesh: 好的,退一步看,中国必须能够建立足够的 7nm 产能。记住,他们仍被困在 7nm,而你们将向 3nm 然后是 2nm 或 1.6nm 的 Feynman 推进。所以当你们在 1.6nm 时,他们仍然在 7nm,他们必须生产足够的芯片来弥补短板。
Jensen: 他们有那么多能源,你给他们的芯片越多,他们的计算能力就越强。
Dwarkesh: 所以归根结底是一个问题,他们最终获得了更多的算力。算力是训练和推理的输入——
Jensen: 听着,我只是觉得你说话太绝对了。我认为美国理应领先。美国的算力比世界上其他任何地方多 100 倍。美国理应领先。
Dwarkesh: 好的。
Jensen: 美国在领先。英伟达创造最先进的技术。我们确保美国的实验室首先听到相关消息,并有第一时间购买的机会。如果他们没有足够的钱,我们甚至会投资他们。美国理应领先。我们正在尽我们所能确保美国处于领先地位。第一点,你同意吗?
Dwarkesh: 我们正在尽我们所能做到这一点。但如果他们受限于算力,向中国出售芯片如何能帮助美国保持领先?
Jensen: 不,不。我们为美国准备了 Vera Rubin。我们为美国准备了 Vera Rubin。我现在是在美国吗?你认为我是美国的一部分吗?
Dwarkesh: 是的。英伟达。你认为英伟达是一家美国公司?
Jensen: 好的。第一,为什么我们不能制定一个更平衡的法规,让英伟达能在全世界赢,而不是放弃全世界?为什么你希望美国放弃全世界?芯片产业是美国生态系统的一部分。它是美国技术领导力的一部分。它是 AI 生态系统的一部分。它是 AI 领导力的一部分。为什么你的政策、你的理念,会导致美国放弃世界上绝大一部分市场?
Dwarkesh: 我猜这里的说法是……Dario 有过这样一段话,他说这就好比波音公司吹嘘我们向朝鲜出售了核武器,只是导弹外壳是波音制造的。而那不知怎的就算是在赋能美国的技术栈了。但从根本上说,你是在赋予他们这种能力。
Jensen: 把 AI 与你刚才提到的任何东西相提并论,简直是疯了。
Dwarkesh: 但 AI 类似于浓缩铀,对吧?它有积极的用途,也有消极的用途。我们依然不想把浓缩铀运往其他国家。
Jensen: 谁在输送浓缩——
Dwarkesh: 这个比喻是,浓缩铀就像算力。
Jensen: 这是一个糟糕透顶的比喻。这是一个不合逻辑的比喻。
Dwarkesh: 但如果那份算力能运行一个可以对所有美国软件发起零日攻击的模型,这怎么就不算一种武器呢?
Jensen: 首先,解决这个问题的方法是与研究人员对话,与中国对话,与所有国家对话,确保人们不以那种方式使用技术。这是必须进行的对话。好吗?这是第一点。
第二点,我们也必须确保美国处于领先地位,确保 Vera Rubin、Blackwell 在美国不仅可获得,而且是堆积如山的储备。显然,我们的结果会证明这一点。充足供应,大量供应。我们拥有的计算能力非常强大。我们这里有令人惊叹的 AI 研究员。这太棒了。我们理应保持领先。
然而,我们也必须认识到 AI 不仅仅是一个模型。AI 是一块五层蛋糕。AI 产业在每一层都很重要,我们希望美国在每一层都能赢,包括芯片层。基于你所描述的事实,放弃整个市场,无法让美国在技术竞赛中取得长期的芯片层或计算堆栈层的胜利。这是一个事实。
Dwarkesh: 我想核心问题归结为,现在卖给他们芯片如何能帮助我们赢得长期的竞争?长期以来,特斯拉在中国销售了极其出色的电动汽车。iPhone 在中国销售得极好。它们并没有造成中国的技术锁定。中国仍然会制造他们版本的电动汽车并且正占据主导地位。他们的智能手机正占据主导地位。
Jensen: 我们今天开始对话时,你承认英伟达的地位非常不同。你使用了像“护城河”这样的词。对我们公司来说最重要的事情是我们生态系统的丰富性,这关乎开发者。世界上 50% 的 AI 开发者在中国。美国不应该放弃这一点。
Dwarkesh: 但我们在美国有很多英伟达开发者,这并没有阻止美国实验室在未来也能使用其他加速器。事实上,现在他们也在使用其他加速器,这很好也很棒。我不明白为什么在中国如果卖给他们英伟达芯片就不会是这种情况,就像谷歌可以同时使用 TPU 和英伟达一样……
Jensen: 我们必须继续创新,正如你可能知道的那样,我们的份额在增长,而不是在减少。即使我们在中国竞争,无论如何我们都会失去那个市场的假设……你面对的不是一个生来就是失败者的人。那种失败者的态度、那种失败者的假设对我来说毫无意义。
我们不是汽车。我们不是汽车。今天我买这个牌子的车,明天我开另一个牌子的车,这很简单。计算不是那样的。x86 的垄断地位存在是有原因的。ARM 的黏性如此之强也是有原因的。这些生态系统很难被取代。这需要花费大量的时间和精力,大多数人不想这么做。
所以我们的工作是继续培育那个生态系统,继续推进技术,以便我们能在市场上竞争。基于你描述的前提放弃一个市场,我根本无法认同。这毫无道理。因为我不认为美国是一个失败者。我们的产业不是失败者。那种必败的主张、失败者的心态,对我来说毫无道理。
Dwarkesh: 好的。我会继续下一个话题。我只是想确保——
Jensen: 你不必跳过。我聊得很开心。
Dwarkesh: 好的,太好了。那我不跳过。我很欣赏你这样说。但我认为这里的核心可能是……而且谢谢你陪我绕圈子,因为这有助于揭示核心所在。核心是你走向了极端。你的论点从极端出发:如果我们在这个狭窄的时刻给他们哪怕一点点计算能力,我们就会失去一切。
Dwarkesh: 不,我认为我的论点是——
Jensen: 那些极端想法,很幼稚。
Dwarkesh: 让我来解释一下我的论点。并不是说存在某种关键的算力门槛。而是任何边际的算力都是有帮助的。所以如果你有更多算力,你就能训练出更好的模型。我只是希望你承认,对于美国科技产业来说,任何边际销售都是有益的。我实际上不这么认为……如果在这些芯片上运行的 AI 模型能够执行网络攻击,或者这些芯片正在训练具有网络攻击能力的模型,并运行更多这些模型的实例,它虽然不是核武器,但它赋能了某种形式的武器。
Jensen: 按照你使用的逻辑,你大可以把它套用在微处理器和 DRAM 上。你大可以把它套用在电力上。
Dwarkesh: 但实际上我们确实对制造最先进 DRAM 的相关技术实行了出口管制。我们对中国在各种芯片制造设备上都有出口管制。我们向中国出售大量的 DRAM 和 CPU,我认为这没问题。我猜这回到了根本问题:AI 有所不同吗?如果你拥有一种能够找出软件中这些零日漏洞的技术,我们是不是想要尽量减少中国率先获得它并广泛部署它的能力?
Jensen: 我们希望美国领先。我们可以控制这一点。
Dwarkesh: 如果芯片已经在那里,并且他们正在用它们来训练那个模型,我们怎么控制这一点呢?
Jensen: 我们有海量的算力。我们有海量的 AI 研究员。我们正尽全力冲刺。再次强调,我们拥有的核武器比任何人都多,但我们不想把浓缩铀送到任何地方。
Jensen: 我们卖的不是浓缩铀。它是芯片,而且是他们自己能制造的芯片。
Dwarkesh: 但他们买你们的芯片是有原因的。我们有中国公司创始人的原话,说他们受限于算力。
Jensen: 因为我们的芯片更好。综合来看,我们的芯片更好。这是毫无疑问的。如果没有我们的芯片……你能承认华为创下了创纪录的一年吗?你能承认一大堆芯片公司已经上市了吗?你能承认这一点吗?
Dwarkesh: 是的。你能承认我们曾经在那个市场上拥有非常大的份额,而现在我们在这个市场上的份额不大了吗?
Jensen: 我们也可以承认,中国约占世界科技产业的 40%。为了美国科技产业放弃那个市场,是对我们国家的不负责任。这是对我们国家安全的不负责任。这是对我们技术领导力的不负责任,仅仅是为了让一家公司受益。这对我来说毫无道理。
Dwarkesh: 我有点困惑。感觉你发表了两种不同的声明。一种是,如果允许我们竞争,我们将在这场与华为的竞争中获胜,因为我们的芯片会好得多。另一种声明是,如果没有我们,他们无论如何都会做完全相同的事情。这两种情况怎么可能同时成立?
Jensen: 这显然是真的。在没有更好选择的情况下,你会选择你唯一的选项。这有什么不合逻辑的?这太符合逻辑了。
Dwarkesh: 他们想要英伟达芯片的原因是它们更好。
Jensen: 是的。
Dwarkesh: 更好意味着更多的计算能力。更多的计算能力意味着你可以训练更好的模型。
Jensen: 不,它就是更好。它更好是因为它更容易编程。我们有更好的生态系统。但无论“更好”是什么,无论“更好”意味着什么……当然我们要把算力卖给他们。那又怎样?事实是,我们从中受益。别忘了,我们获得了美国技术领导力的利益。我们获得了开发者在美国技术栈上工作的利益。我们获得的利益是,随着那些 AI 模型扩散到世界各地,美国的技术栈因此是运行它们的最佳选择。我们可以继续推进和传播美国技术。我相信,这是积极的一面。这是美国技术领导力的一个非常重要的部分。
现在,你所倡导的政策导致美国电信业在政策层面上基本被排除了全球市场,以至于我们甚至不再掌控自己的电信网络。我不认为这是明智的。这有点目光短浅,而且导致了意外的后果,就像我现在向你描述的一样,而你似乎很难理解。
Dwarkesh: 好的,让我们退一步。似乎这里的核心问题是,存在潜在的收益,也存在潜在的代价。我们试图弄清楚的是,这收益是否值得付出代价?我想我想让你承认潜在的代价。
算力是训练强大模型的输入。强大的模型确实具有强大的攻击能力,比如网络攻击。美国公司率先获得 Mythos 级别的能力,并且现在推迟发布这些能力,以便美国公司和美国政府能够在这种能力被公布之前加强软件的保护,这是一件好事。
如果中国拥有更多算力或更多的群众算力,如果他们能够更早地制造出 Mythos 级别的模型并广泛部署,那将是非常糟糕的。这之所以还没发生,原因之一是多亏了像英伟达这样的公司,美国拥有更多的算力。这(可能发生的事)就是将其(算力)送往中国的代价。所以让我们暂时把利益放在一边。你承认这是一个潜在的代价吗?
Jensen: 我还要告诉你,潜在的代价是,我们允许 AI 堆栈中最重要的一层——芯片层——放弃整个市场(世界第二大市场),从而让他们能够发展规模,发展自己的生态系统,从而使得未来的 AI 模型以一种与美国技术栈截然不同的方式进行优化。随着 AI 扩散到世界各地,他们的标准、他们的技术栈将变得优于我们的,因为他们的模型是开源的。
Dwarkesh: 我猜我只是非常相信英伟达的内核工程师和 CUDA 工程师,我认为他们能够优化——
Jensen: 正如你所知,AI 不仅仅是内核优化。
Dwarkesh: 当然,但你可以做很多事情,从将模型提炼(蒸馏)成非常适合你们芯片的形式。
Jensen: 我们会尽力而为。
Dwarkesh: 你们拥有所有的软件能力。即使他们暂时拥有稍微好一点的开源模型,也很难想象这会导致中国生态系统形成长期的锁定。
Jensen: 中国是世界上最大的开源软件贡献者。事实。中国是世界上最大的开放模型贡献者。事实。今天,这一切都是建立在美国技术栈,也就是英伟达之上的。事实。
AI 技术栈的所有五层都很重要。美国理应去赢得全部五层。它们都很重要。当然,最重要的一层是 AI 应用层。那一层会渗透进社会,谁使用它最多,谁就会从这场工业革命中获益最多。但我的观点是,每一层都必须成功。
如果我们让这个国家感到恐惧,认为 AI 莫名其妙地是一枚核弹,从而让每个人都憎恨 AI,每个人都害怕 AI,我不知道你是如何在帮助美国的。你在帮倒忙。如果我们把所有人都吓得不敢去做软件工程师的工作,因为 AI 会抹杀每一个软件工程的职位——从而导致我们没有软件工程师——我们是在对美国做一件坏事。
如果我们把所有人都吓得不敢进入放射学领域,让没人想当放射科医生,仅仅因为计算机视觉完全免费,且没有 AI 做得比放射科医生更差,那就是我们深刻误解了“工作职位(job)”和“任务(task)”之间的区别。放射科医生的工作是病患护理。其中的一项任务是看片子。如果我们如此深刻地误解这一点,并把每个人都吓得不敢去放射医学院,我们将没有足够的放射科医生和足够好的医疗保健。
所以我试图证明的一点是,当你提出一个如此极端的前提,一切非零即无穷大时,我们最终会以一种完全不符合事实的方式吓唬人们。生活不是那样的。
我们希望美国成为第一吗?当然希望。我们需要在那五层堆栈的每一层都成为领导者吗?当然需要。当然需要。今天你谈论 Mythos,因为 Mythos 很重要。当然。那很棒。但几年后,我向你预测,当我们希望美国的技术栈、当我们希望美国的技术扩散到世界各地时——扩散到印度、扩散到中东、扩散到非洲、扩散到东南亚——当我们的国家想要出口时,因为我们想要出口我们的技术,我们想要出口我们的标准,到那一天,我希望你和我再次进行同样的对话。我将会准确地告诉你关于今天的对话,告诉你你的政策和你的想象如何硬生生地导致美国毫无道理地放弃了世界第二大市场。我们不应该放弃它。如果我们失去了它,那是我们自己不争气。但我们为什么要主动放弃它呢?
现在没有人主张“要么全有要么全无”。没有人主张全有或全无,意思是我们在任何时候都把一切都卖给中国。没有人那样主张。我们应该永远在这里拥有最好的技术。我们应该永远在这里拥有最多的技术,并且是最早拥有的。但我们也应该尝试在世界各地竞争并获胜。这两件事可以同时发生。这需要一定程度的细微差别,一定程度的成熟度,而不是绝对化。世界不是非黑即白的。
Dwarkesh: 好的。论点的核心在于此:他们已经构建了专为他们几年后制造出的最好芯片而指定的模型。这些芯片被出口到世界各地。这确立了标准。由于我们所说的 EUV 出口管制,你们将向 1.6nm 迈进。而几年后他们仍将处于 7nm。在国内,他们更偏向于“嘿,我们有那么多能源,我们可以大规模制造。我们将继续使用 7nm”,这可能说得通。但在出口方面,他们的 7nm 芯片必须与你们的 1.6nm 芯片竞争。他们的模型必须为 7nm 进行极度优化,以至于在他们的 7nm 上运行他们的模型,比在你的 1.6nm 上运行还要好才行。
Jensen: 让我们看看事实好吗?Blackwell 在光刻技术上比 Hopper 先进了 50 倍吗?是 50 倍吗?差得远了。我只是一遍又一遍地说。摩尔定律已死。从晶体管本身来看,Hopper 和 Blackwell 之间,算它提升了 75% 吧。它们相隔三年,提升了 75%。而 Blackwell 是 Hopper 的 50 倍。我的观点是,架构很重要。计算机科学很重要。半导体物理当然也很重要,但计算机科学很重要。
AI 的影响力很大程度上来自计算堆栈,这也是 CUDA 如此有效的原因,也是 CUDA 如此受人喜爱的原因。它是一个生态系统、一个计算架构,提供了极大的灵活性。如果你想彻底改变一个架构——创造像 MoE 这样的东西,创造像扩散模型这样的东西,创造解耦的东西——你就可以做到。这很容易做到。
所以事实是,AI 不仅关乎底层架构,也同样关乎上层软件栈。当我们的架构和软件栈为我们的生态系统进行了优化,这显然是好事,因为我们今天对话的开头就谈到了英伟达的生态系统是多么丰富。为什么人们总是喜欢首先使用 CUDA 编程?他们确实如此。他们确实如此。中国的研究人员也是如此。
但如果我们被迫离开中国,首先,这是一个政策错误。显然它会产生反作用。这对美国来说结果很糟糕。它赋能、加速了他们的芯片产业。它迫使他们整个 AI 生态系统专注于他们内部的架构。这还不算太晚,但尽管如此,这已经发生了。你会看到在未来,他们显然不会停滞在 7nm。他们擅长制造业。他们将继续从 7nm 向前发展。现在,5nm 和 7nm 之间有 10 倍的差距吗?答案是否定的。架构很重要。网络很重要。这就是为什么英伟达收购了 Mellanox。网络很重要。能源很重要。所以所有这些都很重要。它并不像你试图提炼的那么简单化。
为什么英伟达不制造多种不同的芯片架构?
Dwarkesh: 我们可以略过中国这个话题,但这确实引发了一个有趣的问题。我们早些时候讨论了台积电、内存等方面的瓶颈。因此,如果我们处在这样一个世界里:你已经占据了 N3 产能的大头——而且在某个时候你也会成为 N2 的大头——你是否看到这样一种可能性,你可以回到 N7,利用旧工艺节点上的空闲产能,然后说,“嘿,AI 的需求太大了,我们在前沿节点扩大产能的速度满足不了它,所以我们要制造一个基于今天我们对数值精度的所有理解以及你描述的所有其他改进的 Hopper 或 Ampere”?你认为那种情况会在 2030 年之前发生吗?
Jensen: 没有必要这样做。原因在于,随着每一代的更迭,架构绝不仅仅是晶体管尺寸的缩小。你做了大量的工程设计、封装、堆叠,以及数值和系统架构的创新。当你产能耗尽时,轻易地回到另一个节点……那种研发水平是任何人都负担不起的。我们负担得起向前冲。我认为我们负担不起向后退。现在,如果世界只是说……如果在那一天,让我们做一个思想实验,如果在那一天我们意识到,“听着,我们将永远不再有更多的产能了。”我会回去使用 7nm 吗?立刻马上,我当然会。
Dwarkesh: 我和一个聊天的人有这样一个疑问:为什么英伟达不齐头并进地运行多个具有完全不同架构的芯片项目呢?比如,你可以做一个 Cerebras 风格的晶圆级芯片。你可以做一个 Dojo 风格的巨型封装芯片。你可以做一个没有 CUDA 的。你们拥有资源和工程人才来并行完成所有这些。那么,既然谁也不知道 AI 和架构可能会走向何方,为什么要把所有鸡蛋放在一个篮子里呢?
Jensen: 哦,我们本可以做到的。只是那些想法并不更好。我们本可以做所有那些事情。只是它们没那么好。我们在模拟器中模拟了所有这些方案,结果证明它们明显更差。所以我们不会去做的。我们正致力于精确地开发我们想要开发的项目。
如果工作负载发生巨大变化——我指的不是算法,我是指实际的工作负载,而这取决于市场的形态——我们可能会决定添加其他加速器。例如,最近我们加入了 Groq,我们将把 Groq 整合到我们的 CUDA 生态系统中。
我们现在这样做是因为 Token 的价值涨得如此之高,以至于你可以对 Token 进行不同的定价。在过去,就在几年前,Token 要么是免费的,要么非常便宜。但现在你可以有不同的客户群,这些客户群需要不同的响应。由于客户能赚很多钱——例如,我们的软件工程师——如果我能给他们响应快得多的 Token,让他们比今天更有生产力,我愿意为此付钱。
但这个市场最近才刚刚出现。所以我认为我们现在有能力基于响应时间,为同一个模型划分出不同的细分市场。这就是为什么我们决定扩展帕累托前沿(Pareto frontier),并创建一个响应时间更快、即使吞吐量较低的推理细分市场。直到现在,更高的吞吐量总是更好的。我们认为可能会存在一个拥有非常高平均售价(ASP)Token 的世界,即使工厂的吞吐量较低,高 ASP 也能弥补。这就是我们这样做的原因。
但除此之外,从架构的角度来看,如果我有更多的钱,我会投入更多去支持英伟达现有的架构。
Dwarkesh: 我认为这种极其优质的 Token 以及推理市场的拆分是非常有趣的。
Jensen: 是它的细分。是的。
Dwarkesh: 好了,最后一个问题。假设深度学习革命没有发生。英伟达会在做什么?显然会做游戏,但考虑到——
Jensen: 加速计算,我们在做的一直是同样的事情。我们公司的前提是摩尔定律将会……通用计算擅长做很多事情,但对于很多计算来说,它并不理想。因此,我们将一种名为 GPU 和 CUDA 的架构与 CPU 结合起来,以便我们可以加速 CPU 的工作负载。不同的代码内核或算法可以卸载到我们的 GPU 上。结果是,你将一个应用程序的速度提高了 100 倍、200 倍。
你在哪里可以使用它?显然是工程学、科学和物理学、数据处理、计算机图形学、图像生成等等各种各样的事情。即使今天没有 AI,英伟达也会非常、非常大。
原因相当根本,那就是通用计算继续扩展的能力已基本走到了尽头。而唯一的方法……不是唯一的方法,但实现这一目标的方法就是通过特定领域的加速。我们开始涉足的领域之一是计算机图形学,但还有许多其他领域。形形色色。
粒子物理和流体力学、结构化数据处理,所有受益于 CUDA 的各种不同类型的算法。我们的使命实际上是将加速计算带给世界,并推进通用计算无法完成的应用程序类型,并将其扩展到有助于突破某些科学领域的更高能力水平。一些早期的应用包括分子动力学、用于能源勘探的地震波处理,当然还有图像处理,所有这些普通计算因为太低效而无法胜任的领域。
如果没有 AI,我会非常伤心。但是因为我们在计算方面取得的进步,我们使深度学习民主化了。我们使任何研究人员、任何科学家、任何地方的任何学生都有可能访问一台 PC 或一张 GeForce 扩展卡,并从事令人惊叹的科学研究。这个基本承诺并没有改变,一点都没有。
如果你看 GTC 大会,它的整个开场部分。没有一个是关于 AI 的。所有关于计算光刻、量子化学研究、数据处理的工作,所有这些东西都与 AI 无关。而且它仍然非常重要。我知道 AI 很有趣,也很令人兴奋,但有很多人在做很多非常重要的工作,这些工作与 AI 无关,而且张量并不是唯一的计算方式。我们想帮助每一个人。
Dwarkesh: Jensen,非常感谢你。
Jensen: 不客气。我聊得很开心。
Dwarkesh: 我也是。