NVIDIA CEO黄仁勋在巴黎GTC发表VivaTech 2025主题演讲
摘要
黄仁勋在2025年VivaTech巴黎GTC上发表主题演讲,系统阐述AI计算的演进路径。演讲涵盖CUDA生态扩展、Blackwell架构与AI工厂概念、量子计算协同、从感知智能到智能体AI的三波浪潮,以及NVIDIA在欧洲的战略布局,包括主权大语言模型支持、工业数字孪生、自动驾驶和人形机器人等前沿领域的发展蓝图。
核心概念及解读
AI工厂:区别于传统数据中心的新型基础设施,专门用于大规模生成AI token,被视为国家级战略资产和创收设施,代表算力基础设施的范式转变
Blackwell架构:NVIDIA最新GPU架构,被称为会思考的机器,通过NVLink互连将多个芯片整合为一个巨大的GPU,在推理性能上实现数量级飞跃
CUDA生态系统:包含400多个加速库的软件平台,覆盖从计算光刻到量子计算的广泛领域,CUDA-X和CUDA-Q分别面向经典加速计算和量子-经典混合计算
智能体AI:AI发展的第三波浪潮,继感知智能和生成式AI之后,具备自主推理、规划和执行复杂任务的能力,结合机器人技术推动工业应用落地
主权大语言模型:各国或地区基于本土数据和语言构建的大型语言模型,通过Nemotron等工具实现,旨在保障数据主权和满足区域化AI需求
- 视频链接:https://www.youtube.com/watch?v=X9cHONwKkn4
- 中文标题:NVIDIA CEO黄仁勋在巴黎GTC发表VivaTech 2025主题演讲
演讲介绍
在2025年VivaTech期间举办的GTC巴黎站,NVIDIA创始人兼CEO黄仁勋发表了主题演讲,系统阐述了人工智能计算的下一阶段演进。演讲从NVIDIA的发展历程切入,回顾了其从图形处理单元向全栈AI计算平台转型的过程,并强调了CUDA及其不断扩展的生态系统(如CUDA-X和面向量子计算的CUDA-Q)的核心作用。黄仁勋深入剖析了AI发展的不同浪潮,从感知智能、生成式AI到新兴的智能体AI,并详细介绍了为支撑这些复杂计算需求而设计的Blackwell架构——一个被誉为“会思考的机器”的强大平台。
演讲的核心亮点之一是“AI工厂”概念的提出,这代表了从传统数据中心向大规模智能生成设施的转变。黄仁勋还着重介绍了NVIDIA在欧洲的战略布局,包括与当地企业的合作、AI技术中心的建立,以及通过Nemotron等工具支持主权大语言模型的发展。此外,他还探讨了AI在工业领域的变革性影响,如通过Omniverse实现的数字孪生、NVIDIA Drive平台驱动的自动驾驶汽车,以及Isaac平台赋能的机器人技术(包括人形机器人)的未来。整场演讲描绘了一幅由AI驱动的新工业革命的宏伟蓝图,为理解当前技术前沿和未来发展趋势提供了宝贵的视角。以下为本次演讲的详细实录,旨在帮助读者更全面地了解其内容。
内容纲要
├── 开场与AI的愿景
│ ├── 智能制造与Token的重要性
│ └── 欢迎NVIDIA创始人兼CEO黄仁勋
├── NVIDIA计算平台与CUDA生态
│ ├── 加速计算与早期应用
│ ├── CUDA库的重要性与多样性 (CUDA-X)
│ │ ├── 计算光刻 (Coup Litho)
│ │ ├── 直接稀疏解算器 (Coop)
│ │ ├── Pythonic几何与物理求解框架 (Warp)
│ │ ├── 加速Spark与Scikit-learn (QDF, QML)
│ │ ├── 深度神经网络原语与推理编排 (QDNN, Dynamo)
│ │ ├── 张量收缩与等变神经网络 (Coupensor, C Equivariance)
│ │ ├── 6G AI (Aerial, Shiona)
│ │ ├── 天气与气候模拟 (Earth 2)
│ │ ├── 医学成像 (Monai)
│ │ ├── 基因组学分析 (Parabicks)
│ │ └── 量子计算支持 (CUDA Q)
│ └── CUDA Q的引入
├── 量子计算的进展与CUDA-Q
│ ├── 量子计算的拐点与逻辑量子比特的增长
│ ├── QPU与GPU的协同
│ ├── Grace Blackwell 200对量子算法栈的加速
│ ├── CUDA Q的量子-经典计算方法
│ └── 欧洲在量子计算领域的潜力
├── AI的浪潮:从感知到生成式再到智能体AI
│ ├── AI发展回顾 (AlexNet)
│ ├── AI的第一波:感知
│ ├── AI的第二波:生成式AI与多模态
│ └── AI的第三波:智能体AI (Agentic AI) 与机器人技术
├── GeForce、数字孪生与Blackwell架构
│ ├── GeForce与计算机图形的演进
│ ├── 数字孪生的概念与应用
│ ├── Grace Blackwell NVL72 “会思考的机器”
│ │ ├── 规格与设计理念
│ │ └── 作为“一个巨大的GPU”
│ ├── GB200 “一个巨大的GPU”
│ │ ├── 与Hopper系统的对比
│ │ ├── MVLink系统与MVLink Spine
│ │ └── 带宽与性能
│ ├── Blackwell在推理性能上的巨大飞跃
│ ├── Blackwell制造过程概述
│ └── Grace Blackwell系统的量产与性能提升
├── 多样化的AI计算系统与AI工厂
│ ├── 一个架构:从云到边缘
│ ├── DGX Spark (桌面级Grace Blackwell)
│ ├── x86系统支持
│ ├── RTX Pro服务器 (企业级通用AI服务器)
│ └── AI工厂的概念
│ ├── 与传统数据中心的区别
│ ├── 作为创收设施与国家基础设施
│ └── Stargate项目示例
├── NVIDIA在欧洲的布局与合作
│ ├── 欧洲AI工厂与基础设施的重要性
│ ├── 欧洲电信、云服务商、超算中心的AI建设
│ ├── 未来两年欧洲AI计算能力的增长
│ ├── 建立AI技术中心与生态系统 (以英国为例)
│ └── 法国AI合作伙伴关系
│ ├── 与施耐德合作构建数字AI工厂
│ └── 与Mistral合作建立AI云
├── Nemotron与主权大语言模型
│ ├── Nemotron对开源模型的增强
│ ├── 可下载的NIM
│ ├── Nemotron的性能表现
│ ├── 构建主权大语言模型 (Sovereign LLMs)
│ └── 与Perplexity合作支持区域模型
├── 智能体AI平台与部署
│ ├── 智能体AI (Agentic AI) 的能力与Perplexity示例
│ ├── NVIDIA企业AI智能体平台
│ │ ├── Nemo、Nemotron、Nemo Retriever
│ │ ├── IQ AI (AIQ) 蓝图
│ │ └── 工具套件与AI Ops集成
│ ├── DGX Leptton (多云部署平台)
│ ├── DGX Spark (AI超级计算机桌面版)
│ ├── 连接开发者与全球AI计算 (Hugging Face与Leptton集成)
│ └── 平台用户案例 (SAP, deepl, AI Photo Room等)
├── 工业AI与欧洲机遇
│ ├── 欧洲在神经计算机领域的早期贡献 (Synapse One)
│ ├── 与西门子的合作与工业AI革命
│ ├── “致欧洲的情书”视频概要 (工业革命与AI)
│ ├── 工业AI合作伙伴案例 (宝马, 蒂森克虏伯, 奔驰等)
│ ├── Omniverse在工业数字孪生中的应用
│ └── 世界首个工业AI云在欧洲的宣布
├── 自动驾驶与机器人技术
│ ├── NVIDIA Drive自动驾驶汽车平台
│ │ ├── AI驱动与整体堆栈
│ │ ├── Halo安全系统与CVPR获奖
│ │ └── 自动驾驶的未来与市场规模
│ └── NVIDIA Isaac开放式机器人开发平台
│ ├── 人形机器人的潜力与挑战
│ ├── Thor计算机开发套件
│ ├── Omniverse在机器人训练中的作用
│ └── Greck机器人演示
└── 总结与展望
├── 工业革命与AI新浪潮
├── 推理工作负载的爆炸性增长
├── Blackwell作为“会思考的机器”的重要性
├── AI工厂生成Token的未来
└── 欧洲在AI领域的投入与未来
演讲实录
开场与AI的愿景
[音乐]
智能就是这样产生的,一种新型工厂。
token的生成器,AI的基石。
token开启了一个新的前沿,这是进入一个充满无限可能性的非凡世界的第一步。
token将图像转化为科学数据,绘制外星大气层,并引导未来的探索者。
它们探测地球的深处,寻找隐藏的危险。
它们将潜力转化为富饶,
并帮助我们收获丰硕的成果。
token在疾病显现之前就能看到它,
进行精确治疗,
并了解是什么让我们运转。
token将点点滴滴联系起来,这样我们就能保护我们最高贵的生物。
token解码物理定律,让我们移动得更快,
并使我们的日子更加高效。
token不仅教会机器人如何移动,还教会它们带来快乐和舒适。 “你好,Maroka。”“你好,Anna。你准备好去看医生了吗?”“那是什么?”“这是我的魔法宝石。” [音乐]
token帮助我们前进。
“个人的一小步”成为“人类的一大步”。
因此,我们可以勇敢地去往无人涉足过的地方。 [音乐]
而这一切都从这里开始。 [笑声] [音乐]
欢迎NVIDIA创始人兼CEO黄仁勋登台。 [音乐]
巴黎,你好!
Bonjour!NVIDIA在巴黎的首次GTC。
这太不可思议了。感谢所有与我们同在的合作伙伴。我们多年来与许多人合作。事实上,我们在欧洲已经有很长时间了。尽管这是我在巴黎的第一次GTC,但我有很多话要告诉你们。
NVIDIA计算平台与CUDA生态
NVIDIA曾经想创建一个新的计算平台,来做普通计算机无法做到的事情。
我们加速了CPU,创造了一种称为加速计算的新型计算方式,我们最早的应用之一是分子动力学。从那时起,我们已经取得了长足的进步。
我们开发了许多不同的库。事实上,加速计算的特别之处在于,它不仅仅是一个你将软件编译到其上的新处理器,你必须重新构思你进行计算的方式,你必须重新构思你的算法。事实证明,对于人们来说,重新构思软件和算法以实现高度并行化是非常困难的。因此,我们创建了库来帮助每个市场、每个应用领域实现加速。这些库中的每一个都为开发者开辟了新的机会,也为我们和我们的生态系统合作伙伴开辟了新的增长机会。
计算光刻,可能是当今半导体设计中最重要的应用,它在台积电、三星等大型半导体工厂中运行。在芯片制造之前,它会通过一个称为coup litho的逆物理算法,即计算光刻。
coop,直接稀疏解算器,代数多重网格解算器,我们刚刚开源了这个非常令人兴奋的应用库。这个库加速了决策过程,用于优化具有数百万变量和数百万约束的问题,例如旅行商问题。
warp,一个用于表达几何和物理求解器的Pythonic框架,非常重要。
QDF、QML,结构化数据库、数据帧、经典机器学习算法。QDF能在零代码更改的情况下加速Spark。QML能在零代码更改的情况下加速Scikit-learn。
dynamo和QDNN。QDNN可能是NVIDIA有史以来创建的最重要的库,它加速了深度神经网络的原语。而Dynamo是我们全新的库,它使得在整个AI工厂中分派、编排、分发极其复杂的推理工作负载成为可能。
c equivariance和coupensor,张量收缩算法。等变性用于遵循几何定律的神经网络,例如蛋白质、分子。
aerial和shiona,一个非常重要的框架,使AI能够运行6G。
Earth 2,我们用于天气和气候基础模型的模拟环境,公里级高分辨率,非常高。
monai,我们用于医学成像的框架,非常受欢迎。
parabicks,我们用于基因组学分析的求解器,非常成功。
Coup,我稍后会讲到,用于量子计算。
还有coupler,用于numpy和scipy。
正如你所看到的,这些只是库的一些例子,还有400多个其他的库。它们中的每一个都加速了一个应用领域,每一个都开辟了新的机会。
其中最令人兴奋的是CUDA Q。CUDA-X是这一套库,一个用于在CUDA之上加速应用程序和算法的库套件。我们现在有了CUDA Q。CUDA Q是用于量子计算的,用于基于GPU的经典-量子、量子-经典计算。我们研究CUDAQ已经好几年了,今天我可以告诉你们。
量子计算的进展与CUDA-Q
量子计算领域正在发生一个转折点。如你所知,第一个物理量子比特大约在30年前被展示出来。纠错算法在1995年被发明出来。而在2023年,差不多30年后,谷歌展示了世界上第一个逻辑量子比特。从那以后的几年里,由大量带有纠错功能的物理量子比特所代表的逻辑量子比特的数量开始增长。就像摩尔定律一样,我完全可以预见,逻辑量子比特的数量每5年增长10倍,每10年增长100倍。那些逻辑量子比特会变得更好,纠错能力更强,更稳健,性能更高,更有弹性,当然也将继续保持可扩展性。
量子计算正达到一个转折点。我们一直与世界各地的量子计算公司以多种不同方式合作。但在欧洲,有一个庞大的社区——我昨晚见到了Pascal,昨晚见到了巴塞罗那超级计算中心——现在很清楚,我们已经接近能够在未来几年内将量子计算、量子-经典计算应用于解决一些有趣问题的程度了。这是一个非常激动人心的时刻。
因此,我们一直与所有的超级计算中心合作。现在非常清楚,在接下来的几年里,或者至少是下一代超级计算机,每一台都将分配一个QPU并将其连接到GPU。QPU当然会进行量子计算,而GPU将用于预处理、控制、计算密集型的纠错、后处理等等。在这两种架构之间,就像我们加速CPU一样,现在是QPU与GPU协同工作,以实现下一代计算。
今天我们宣布,我们整个量子算法栈现在都在Grace Blackwell 200上得到了加速,其速度提升令人难以置信。我们与量子计算行业的合作方式有几种。一种是使用coup quantum来模拟量子比特或在这些量子计算机上运行的算法,本质上是使用经典计算机来模拟或仿真量子计算机。另一种极端重要的方式是CUDA Q,基本上是发明一种新的CUDA,将CUDA扩展到量子-经典领域,这样在CUDA Q上开发的应用程序可以在量子计算机问世之前以仿真方式运行,或者在量子计算机问世之后以协作方式,即量子-经典加速计算方法运行。
因此,今天我们宣布CUDAQ可用于Grace Blackwell。这里的生态系统非常丰富,当然,欧洲在科学领域、超级计算专业知识以及这方面的传统都底蕴深厚。看到量子计算在未来几年在这里取得进展也就不足为奇了。我们将看到一个非常棒的转折点。总之,对于所有在这个领域工作了三十年的量子计算机行业同仁,我祝贺你们取得了今天的非凡成就和里程碑。谢谢你们。
[掌声]
AI的浪潮:从感知到生成式再到智能体AI
让我们谈谈AI。你可能会惊讶我会和你们谈论AI。运行并促成我提到的所有这些应用的同一个GPU,也促成了人工智能走向世界。我们与它的首次接触是在2012年,就在那之前,我们与开发者合作研究一种名为深度学习的新型算法。它促成了2012年AI的AlexNet大爆炸。
在过去大约15年的时间里,AI取得了令人难以置信的快速进展。AI的第一波浪潮是感知,让计算机能够识别信息并理解它。第二波浪潮,也就是我们过去五年左右大多数人谈论的,是生成式AI。它是多模态的,意味着AI能够同时学习图像和语言,因此你可以用语言提示它,它就能生成图像。AI的多模态能力以及翻译和生成内容的能力,推动了生成式AI的革命。生成式AI,即生成内容的能力,对于我们提高生产力至关重要。
我们正迎来新一轮AI浪潮。在过去的几年里,我们在AI能力方面取得了巨大的进展。从根本上说,智能关乎理解、感知、推理、规划任务——如何解决问题——然后执行任务。感知、推理、规划,这是智能的基本循环。它使我们能够应用先前学到的规则来解决我们从未见过的问题。这就是为什么聪明人被认为是聪明的原因。能够将一个复杂的问题分解,一步一步地推理如何解决问题,也许进行研究,也许去学习一些新的信息,获得一些帮助,使用工具,并一步一步地解决问题。
我刚才描述的这些词语,基本上都可以通过所谓的智能体AI(agentic AI)实现,我稍后会向你们展示更多。智能体AI的物理实现,其具体体现,以及运动——现在生成能力是生成运动,而不是生成视频、图像或文本——这种AI生成局部运动。行走、伸手抓取东西、使用工具的能力。AI以物理形式体现的能力,基本上就是机器人技术。这些能力,即实现智能体(本质上是信息机器人)和具身AI(物理机器人)的基础技术,这两种基础能力现在已经触手可及。这对于AI来说真是非常非常激动人心的时刻。
GeForce、数字孪生与Blackwell架构
但这一切都始于GeForce。GeForce带来了计算机图形,这是我们从事过的第一个加速计算应用。计算机图形学的发展真是令人难以置信。GeForce将CUDA带给了世界,这使得机器学习研究人员和AI研究人员能够推进深度学习。然后,深度学习彻底改变了计算机图形学,使我们能够将计算机图形学提升到一个全新的水平。
我今天要向大家展示的一切,我今天要向大家展示的一切,我会先给大家一个预览,但我今天要展示的一切都是计算机模拟,而不是动画。它是光子模拟、物理模拟、粒子模拟。一切从根本上都是模拟,不是动画,也不是艺术。它看起来只是非常漂亮,因为事实证明世界是美丽的,数学也是美丽的。让我们来看一看。
[音乐播放,展示精美的计算机图形模拟效果,包括自然景观、流体、人物等] 哦,我要抽筋了,哦,我能感觉到。 [音乐继续]
你们觉得怎么样?
数字在行动。数字在行动。这基本上就是模拟的本质,看起来真是令人难以置信的美丽。但由于我们现在能够模拟几乎所有东西的规模和速度,我们可以将一切都转化为数字孪生。因为一切都可以成为数字孪生,所以它可以在被投入物理世界之前,完全以数字方式进行设计、规划、优化和操作。我们将在软件中构建一切的想法现在已经成为现实。一切物理的东西都将以数字方式构建。一切宏伟的建筑都将以数字方式构建。一切以巨大规模运行的东西都将首先以数字方式构建,并且将有数字孪生来操作它。所以今天,我们将大量讨论数字孪生。
那么,最初的一块GeForce显卡——这里有人知道GeForce是什么吗?好的,好吧。
那么,最初的GeForce现在看起来是这样的。这是新的GeForce。它重达两吨,不,是两吨半,拥有120万个部件,大约价值300万美元,功率120千瓦,由150家工厂制造,有200家技术合作伙伴与我们共同完成这项工作,研发预算大概在400亿美元左右,才创造出GB200,现在正向GB300迈进。它已完全投入生产。这台机器被设计成一台会思考的机器。所谓“会思考的机器”,是指它会推理、会计划,会花很多时间与自己对话,就像你一样。我们大部分时间都在为自己的大脑生成文字,为自己的大脑生成图像,然后才将它们表达出来。所以,“会思考的机器”确实是Grace Blackwell在架构上的设计初衷。它被设计成一个巨大的GPU。我把它比作GeForce是有充分理由的,GeForce是一个GPU,GB200也是如此,它是一个巨大的虚拟GPU。
我们不得不将其分解成许多组件,创造了一系列新的网络技术和周边技术,以及令人难以置信的低功耗、高能效的互连技术,将所有这些芯片和系统连接成一个虚拟GPU。
这是Hopper版本,这是世界闻名的Hopper系统。这八个GPU通过MVLink连接在一起。这里没有显示的是一个CPU托盘,一个带有双CPU和系统内存的CPU托盘,位于顶部。它们共同构成了AI超级计算机的一个节点,价值约五十万美元。这就是Hopper系统,这个系统真正让我们在AI领域崭露头角,并且在很长一段时间内都处于供不应求的状态,因为市场发展太快了。但这就是著名的Hopper系统。
那么,这整个系统,包括CPU,都将被这个Grace Blackwell节点所取代。就是这个计算托盘,将取代那整个系统。它完全采用液冷散热,CPU直接连接到GPU。所以你可以看到,这里的两个CPU、四个GPU比那整个系统的性能还要强。
但令人惊奇的是这个:我们想把一大堆这样的系统连接在一起。你怎么把所有这些都连接起来呢?这真的很难想象。所以我们把它分解了。我们做的是,我们拿走了整个主板,把它分解成了这个和这个。这就是革命性的MVLink系统。横向扩展计算并不难,只需用以太网连接更多的CPU。横向扩展不难,纵向扩展却极其困难。你只能构建和你所能容纳的技术和电子元件一样大的计算机,你能装进一个内存模型的数量是极其难以做到的。所以我们决定创造一种新的互连技术,叫做MVLink。MVLink是一种具有内存语义的互连,它是一种计算结构,而不是网络。它直接连接到所有这些不同的MVLink系统计算节点的CPU。
这是交换机。九个这样的交换机立在上面,九个立在下面。中间是MVLink交换机。而连接它们的是这个奇迹。这就是MVLink spine(脊柱)。这是100%的铜质同轴电缆。它直接将所有的MVLink芯片连接到所有的GPU,直接连接遍布整个spine。因此,每一个,总共144个Blackwell裸片,或者说72个不同的封装,都在同一时间通过这个MVLink spine无阻塞地相互通信。它的带宽大约是每秒130太字节。132,我知道。
[掌声]
不,等等,等等。每秒130太字节。如果以比特为单位,每秒130太字节。这比全球整个互联网峰值流量的数据速率还要高,就在这个背板上。是的。
所以,这就是你如何将互联网缩小到60磅的方法,MVLink。我们做了所有这些,因为计算机的思考方式,你思考计算机的方式,在未来将发生根本性的不同。我稍后会花更多时间讨论这个问题。
它的设计目的是让Blackwell在Hopper的基础上实现巨大的飞跃。记住摩尔定律,半导体物理学每三到五年只能给你带来大约两倍的性能提升。我们如何在仅仅一代之内就实现30到40倍的性能提升呢?我们需要30到40倍的性能提升,因为推理模型正在与自身对话。它不再是一次性的ChatGPT,现在它是一个推理模型,当你在思考时,它会产生更多的token。你正在逐步分解问题,你在推理,你正在尝试许多不同的路径,也许是思维链,也许是思维树,是“N选最佳”,它在反思自己的答案。你可能见过这些研究模型,它们会反思答案,说:“这是一个好答案吗?你能做得更好吗?”然后它们会说:“哦,是的,我能做得更好。”然后回去再思考一番。所以那些思考模型、推理模型,实现了令人难以置信的性能,但它需要更多的计算能力。
结果是,MVLink 72 Blackwell架构在性能上实现了巨大飞跃。这张图的解读方式是:X轴代表思考的速度,Y轴代表工厂在同一时间支持大量用户所能达到的产出。所以你希望工厂的吞吐量尽可能高,这样你就能支持尽可能多的人,从而使你的工厂收入尽可能高。你希望这个轴尽可能大,因为这里的AI比这里的AI更聪明。它思考得越快,在回答你的问题之前就能思考得越多。所以这与token的平均售价(ASP)有关,而这与工厂的吞吐量有关。这两者结合起来,在那个角落,就是工厂的收入。这个基于Blackwell的工厂,由于其架构,可以产生更多的收入。我们所构建的这个东西真是太不可思议了。
我们为你制作了一部电影,让你感受一下构建Grace Blackwell所投入的巨大工程量。看一看。
[视频播放开始] “Blackwell是一项工程奇迹。它始于一块空白的硅晶圆。数百个芯片处理和紫外光刻步骤,在12英寸的晶圆上逐层构建出2000亿个晶体管中的每一个。晶圆被切割成单独的Blackwell裸片,经过测试和分类,将优质裸片分离出来继续下一步。芯片-晶圆-基板工艺将32个Blackwell裸片和128个HBM堆栈连接到一个定制的硅中介层晶圆上。金属互连走线直接蚀刻在其中,将Blackwell GPU和HBM堆栈连接到每个系统和封装单元中,将所有部件锁定到位。然后,组件经过烘烤、模塑和固化,形成Blackwell B200超级芯片。每个Blackwell都在125摄氏度的烤箱中进行数小时的压力测试,并被推向其极限。机器人全天候工作,将超过10,000个组件拾取并放置到Grace Blackwell PCB上。同时,定制的液冷铜块也已准备就绪,以将芯片保持在最佳温度。在另一个工厂,ConnectX-7 SuperNIC被制造出来,以实现横向扩展通信,BlueField-3 DPU则用于卸载和加速网络、存储和安全任务。所有这些部件汇集在一起,被小心地集成到GB200计算托盘中。” [音乐] “MVLink是NVIDIA发明的突破性高速链路,用于连接多个GPU并纵向扩展成一个巨大的虚拟GPU。MVLink交换托盘由MVLink交换芯片构成,提供每秒14.4太比特的全对全带宽。MVLink主干形成一个定制的盲插背板,拥有5000条铜缆,将所有72个Blackwell或144个GPU裸片连接成一个巨大的GPU,提供每秒130太比特的全对全带宽——这超过了全球互联网的峰值流量。来自世界各地的部件运抵后,由熟练的技术人员组装成机架规模的AI超级计算机。” [音乐] “总共120万个组件,2英里长的铜缆,130万亿个晶体管,重近2吨。” [音乐] “Blackwell不仅仅是一项技术奇迹,它证明了全球协作和创新的力量,为将塑造我们未来的发现和解决方案提供动力。在任何地方,我们都致力于使我们这个时代的天才能够完成他们毕生的工作,我们迫不及待地想看到你们带来的突破。” [视频播放结束]
Grace Blackwell系统,全部投入生产。这真是一个奇迹。从技术角度看是奇迹,但将这些重达两吨的GB200系统构建起来的供应链也是一个奇迹。我们现在每周生产一千个这样的系统。以前从未有人以如此规模大规模生产超级计算机。这些机架中的每一个,本质上都是一台完整的超级计算机。仅在2018年,最大的Volta系统,即2018年的Sierra超级计算机,其性能还不如这些机架中的一个。而那个系统耗电10兆瓦,这个只有100千瓦。所以,从2018年到现在,代际差异巨大,我们确实将超级计算,AI超级计算提升到了一个全新的水平。我们现在正以巨大的规模生产这些机器,而这仅仅是个开始。
多样化的AI计算系统与AI工厂
事实上,你所看到的只是一个系统,Grace Blackwell。全世界都在谈论这个系统,争相将其部署到世界各地的数据中心,用于训练、推理和生成式AI。然而,并非每个数据中心都能处理这些液冷系统。一些数据中心需要企业级堆栈,能够运行Linux Red Hat或Nutanix或VMware,以及来自Dell EMC、Hitachi、NetApp、Vast、Weka等众多不同存储系统的存储系统。还有许多不同的IT系统,对这些系统的管理必须与传统IT系统的方式保持一致。
我们有如此多的新计算机需要投入生产,我很高兴地告诉你们,所有这些现在都已投入生产。你们可能还没见过它们,它们都像从货架上飞下来一样,从生产线上飞下来。从这里开始,DGX Spark,它使你基本上可以在桌面上拥有Grace Blackwell系统。对于Spark Desktop,对于DGX Station桌边型,这样你在开发软件、开发AI时就不必坐在超级计算机旁,但你希望架构完全相同。这些系统在架构上是相同的,从软件开发人员的角度来看,它们看起来完全一样。唯一的区别是规模和速度。
然后,这边是所有的x86系统。世界的IT组织仍然偏爱x86,并且在任何可以利用最先进的AI原生系统的地方都会这样做。在他们不能这样做,并且希望集成到企业IT系统中的地方,我们现在为他们提供了这样做的能力。
其中一个最重要的系统,也是我们花费最长时间构建的系统,因为软件和架构非常复杂,那就是如何将AI原生架构引入并融入传统的企业IT系统。这是我们全新的RTX Pro服务器。这是一个令人难以置信的系统。主板被完全重新设计了。
女士们先生们,Janine Paul。 [掌声]
这个主板看起来如此简单,然而在这个主板之上,有八个SuperNIC交换机,它们通过一个每秒200吉比特的顶尖网络芯片连接八个GPU,然后再连接这八个GPU——这些是Blackwell RTX Pro 6000 GPU,全新的,刚刚投入生产——八个这样的GPU装在一个服务器里。
那么,它有什么特别之处呢?这个服务器是世界上唯一一个能运行世界上曾经编写过的所有东西以及NVIDIA曾经开发过的所有东西的服务器。它运行AI、Omniverse、RTX(用于视频游戏)、Windows、Linux、Kubernetes,它还在VMware中运行Kubernetes,基本上它运行一切。如果你想从计算机向你的远程设备流式传输Windows桌面,没问题。如果你想流式传输Omniverse,没问题。如果你想运行你的机器人堆栈,没问题。仅仅是这台特定机器的质量保证工作就非常繁重。它运行的应用程序基本上是通用的,世界上开发过的所有东西都应该能在这上面运行,包括,如果你是视频游戏玩家,包括《孤岛危机》(Crisis)。
所以,如果你能运行《孤岛危机》,你就能运行任何东西。好的。这就是RTX Pro服务器,全新的企业级系统。
所以有些事情正在改变。我们知道AI是极其重要的技术。我们现在确切地知道,AI是可以彻底改变、转变每个行业的软件。它可以做我们所知道的这些令人惊奇的事情。我们也知道,处理AI的方式与我们过去处理手写软件的方式完全不同。机器学习软件的开发方式不同,运行方式也不同。系统的架构,软件的架构,完全不同。网络的工作方式完全不同。它与存储交互的方式也完全不同。
所以我们知道这项技术可以做不同的事情,令人难以置信的事情,它很智能。我们也知道它的开发方式完全不同,需要新的计算机。真正有趣的是,这一切对国家、对公司、对社会意味着什么?这是我们近十年前就做出的一个观察,现在每个人都意识到了这一点,那就是这些AI数据中心根本不是数据中心。它们不是传统意义上存储你文件的、供你检索的数据中心。这些数据中心不存储我们的文件,它只有一个工作,也只有一个工作,那就是生产智能token,即AI的生成。
这些AI工厂看起来像数据中心,因为它们内部有很多计算机,但仅此而已。它的设计方式、制造或扩展的规模、设计和建造的方式,以及它的使用方式、编排和配置、操作方式,你如何看待它。例如,没有人真正把他们的数据中心看作是一个创收设施。我说了一些话,每个人都会想:“是的,我想你是对的。没有人会把数据中心看作是创收设施。”但他们会把他们的工厂,他们的汽车工厂,看作是创收设施。他们迫不及待地想再建一个工厂,因为每当你建一个工厂,收入很快就会增长,你就可以为更多的人制造更多的东西。这些想法与这些AI工厂的想法完全相同。它们是创收设施,它们被设计用来制造token。而这些token可以被重新构造成对如此多行业具有生产力的智能。
AI工厂现在是一个国家基础设施的一部分,这就是为什么你看到我在世界各地与国家元首交谈的原因,因为他们都想拥有AI工厂。他们都希望AI成为他们基础设施的一部分。他们希望AI成为他们的一个增长型制造业。这确实意义深远。我认为,由于所有这些,我们正在谈论一场新的工业革命,因为每个行业都受到了影响。而且,一个新的行业,就像电力最初被描述为一种技术并被展示为一种技术时,它被理解为一种技术,但后来我们理解到它也是一个巨大的产业。然后是信息产业,我们现在称之为互联网。这两者都因为影响了如此多的行业而成为基础设施的一部分。我们现在有了一个新的产业,一个AI产业,它现在是新的基础设施的一部分,称为智能基础设施。每个国家,每个社会,每个公司都将依赖它。
你可以看到它的规模。这是一个被广泛讨论的例子,这是Stargate。它看起来不像一个数据中心,它看起来像一个工厂。这是一吉瓦的规模,它将容纳大约50万个GPU裸片,并产生大量的智能,可以供每个人使用。
NVIDIA在欧洲的布局与合作
欧洲现在已经认识到这些AI工厂的重要性,AI基础设施的重要性,我非常高兴看到这里有如此多的活动。这是欧洲电信运营商与NVIDIA合作的AI基础设施。这是欧洲云服务提供商与NVIDIA合作构建的AI基础设施。这是欧洲超级计算中心与NVIDIA合作构建的下一代AI超级计算机和基础设施。而这仅仅是个开始。这还不包括未来公共云中的部分。这是在公共云之外的,由欧洲公司为欧洲市场在欧洲本土构建的AI基础设施。
此外,还有20个正在规划中,20个AI工厂,其中有几个是吉瓦级的巨型工厂。总而言之,在仅仅两年内,我们将使欧洲的AI计算能力增加10倍。因此,研究人员、初创企业,你们的AI短缺,你们的GPU短缺问题很快就会为你们解决。它正在向你们走来。
现在,我们正与每个国家合作发展其生态系统。因此,我们正在七个不同的国家建立AI技术中心。这些AI技术中心的目标是:一,进行合作研究;二,与初创企业合作;三,构建生态系统。让我向你们展示一下英国的生态系统是什么样的,我昨天刚去过那里。
生态系统是建立在NVIDIA堆栈之上的。例如,每一个NVIDIA,如你们所知,NVIDIA是唯一一个在每个云中都可用的AI架构。除了x86之外,它是唯一一个随处可用的计算架构。我们与每个云服务提供商都有合作。我们加速来自世界上最重要的软件开发商的应用程序,例如欧洲的西门子、Cadence、Red Hat、ServiceNow。我们重新发明了计算堆栈,如你们所知,计算不仅仅是一台计算机,而是计算、网络和存储。这些层中的每一个,这些堆栈中的每一个都已被重新发明。我们与思科建立了很好的合作伙伴关系,他们昨天在他们的会议上发布了一个基于NVIDIA的全新模型。戴尔,很好的合作伙伴关系。NetApp,Nutanix,以及我之前提到的一系列很棒的合作伙伴关系。
开发软件的方式已经从根本上改变了。不再仅仅是编写C程序,编译C程序,交付C程序。现在是DevOps,MLOps,AI ops。因此,整个生态系统正在被重塑,我们到处都有生态系统合作伙伴。然后当然还有解决方案集成商和提供商,他们可以帮助每个公司集成这些能力。
在英国,我们有一些特别的公司与我们合作,从研究人员到开发人员,再到合作伙伴,都是非常优秀的公司,帮助我们提升当地经济和当地人才的技能。还有消费这项技术的企业,当然还有云服务提供商。我们在英国有很棒的合作伙伴。我们在德国有很棒的合作伙伴,在德国有令人难以置信的合作伙伴关系。我们在意大利有很棒的合作伙伴关系。当然,我们在法国这里也有令人惊叹的合作伙伴关系。
[掌声]
没错,法国加油!
[掌声]
总统马克龙稍后会到场,我们将讨论一些新的公告。所以我们必须对AI表现出一些热情,好吗?
是的,就这样,向他展示一些热情。
所以,在法国这里有很棒的合作伙伴关系。我想特别强调一个,我们与施耐德的合作,甚至在建设这些AI工厂时,我们现在也是以数字方式建造它们。我们以数字方式设计它们,以数字方式建造它们,以数字方式优化它们或操作它们,我们甚至最终会在数字孪生中完全以数字方式优化和操作它们。这些AI工厂非常昂贵,未来可能达到500亿美元,有时甚至1000亿美元。如果那个工厂的利用率没有达到最高,工厂所有者的成本将会令人难以置信。因此,我们需要数字化,并在任何可能的地方使用AI,将所有东西都放入Omniverse,这样我们就能拥有直接和持续的遥测数据。
我们今天在这里宣布一个很棒的合作伙伴关系,这是一家年轻的公司,我非常喜欢它的CEO,他正努力打造一家欧洲AI公司。这家公司的名字是Mistral。
今天,我们宣布将共同在这里建立一个AI云,以交付他们的模型,并为其他AI初创公司的生态系统提供AI应用,这样他们就可以使用MRO模型或他们喜欢的任何模型。因此,Mrol和我们将合作在这里建立一个规模相当大的AI云,今天晚些时候我们将与马克龙总统一起讨论更多细节。
Nemotron与主权大语言模型
AI技术正以光速发展。我在这里展示给你们的,左边是专有模型,以光速发展。然而,开放模型也以光速发展,只落后几个月,无论是Mistral、Llama、Deep Seek R1、R2(即将于第一季度推出),这些模型都非常出色,每一个都非常出色。
因此,在过去的几年里,我们致力于投入一些世界上最优秀的AI研究人员,使那些AI模型变得更好,我们称之为Nemotron。基本上,我们做的是,我们采用那些开源的模型——当然,它们都是基于NVIDIA构建的——然后我们对它们进行后训练。我们可能会进行神经架构搜索,提供更好的数据,使用强化学习技术,增强那些模型,赋予它们推理能力,扩展上下文,这样它在与你互动之前就能学习和阅读更多内容。这些模型中的大多数上下文相对较短,我们希望它们具有巨大的上下文能力,因为我们想在企业应用中使用它们,我们想与它进行的对话在互联网上是找不到的,它在我们公司内部。所以我们必须给它加载大量的上下文。所有这些能力都被打包成一个可下载的NIM。你可以访问NVIDIA的网站, буквально下载一个最先进的AI模型API,把它放在任何你喜欢的地方,我们会极大地改进它。
这是Nemotron在Llama基础上改进的一个例子。所以Llama 8B、70B、405B,通过我们的后训练能力、推理能力的扩展以及我们提供的所有数据得到了极大的增强。我们将一代又一代地这样做。所以对于所有使用Nemotron的人来说,你们会知道未来还会有大量其他模型,而且它们是开放的,所以如果你想从开放模型开始,那非常好。如果你想从Nemotron模型开始,那也非常好。Nemotron模型的性能在一次又一次的基准测试中都非常出色,Nemotron的性能在排行榜上名列前茅。所以现在你知道了,你可以获得一个增强的、仍然是开放的、并且在排行榜上名列前茅的开放模型,而且你知道NVIDIA致力于此。所以我会一直做下去,只要我活着。好的。
这个策略非常好,非常好,以至于欧洲各地的区域模型制造商、模型构建者现在已经认识到这个策略有多么出色。我们正在合作,为区域语言调整和增强这些模型中的每一个。你们的数据属于你们。你们的数据属于你们,它是你们人民的历史,你们人民的知识,你们人民的文化,它属于你们。对于许多公司来说,就NVIDIA而言,我们的数据主要在内部,33年的数据。我今天早上查了一下,西门子有180年的数据,有些是写在纸莎草纸上的。罗兰·布什在这里,我想我该拿我的好朋友罗兰·布什开个玩笑。所以你必须在AI学习之前将那些数字化。
所以数据属于你们,你们应该使用那些数据,使用像Nemotron这样的开放模型以及我们提供的所有工具套件,这样你们就可以为自己的用途增强它。我们还宣布,我们与Perplexity建立了很好的合作关系。Perplexity是一个推理搜索引擎。是的。我使用的三个模型是Chat GPT、Gemini Pro和Perplexity,我交替使用这三个模型,Perplexity非常棒。我们今天宣布,Perplexity将采用这些区域模型,并将它们直接连接到Perplexity中,这样你现在就可以用你国家的语言、文化和情感来提问并获得答案了。好的。所以,Perplexity区域模型。
智能体AI平台与部署
智能体AI,智能体AI,智能体是非常重要的事情。如你所知,最初使用预训练模型时,人们说它会产生幻觉,它会编造事实。你完全正确。它无法获取最新的新闻和数据信息。完全正确。它在没有仔细推理问题的情况下就放弃了,就好像每一个答案都必须从过去记忆中提取一样。你完全正确。所有这些事情,你知道为什么它试图弄清楚如何加法或计数,数数字和加数字?为什么它不使用计算器?你完全正确。
所以,所有这些与智能相关的能力,每个人都能批评,但他们完全正确,因为每个人基本上都理解智能是如何运作的。但那些技术正在世界各地被构建起来,它们都汇集在一起,从检索增强生成(RAG)到网络搜索,再到多模态理解,这样你就可以阅读PDF,访问网站,查看图像和文字,听视频,看视频,然后将所有这些理解融入你的上下文中。你现在当然也可以理解几乎任何东西的提示。你甚至可以说,我要问你一个问题,但从这张图片开始。我可以说,从这个开始,从这段文字开始,在你回答问题或做我要求你做的事情之前。然后它会去推理、计划和评估自己。所有这些能力现在都已集成,你可以看到它们在市场上随处可见。
智能体AI是真实的。智能体AI是从一次性AI(oneshot AI)向前迈出的一大步。一次性AI是必要的,它为我们奠定了基础,这样我们才能教智能体如何成为智能体。你需要对知识有基本的理解,对推理有基本的理解,才能具有可教性。所以,预训练是关于AI的可教性。后训练、强化学习、监督学习、人类演示、上下文提供、生成式AI,所有这些都汇集在一起,形成了现在的智能体AI。让我们看一个例子。让我给你们看点东西,它是基于Perplexity构建的,非常酷。
[视频播放开始] “AI智能体是数字助手。根据提示,它们会进行推理,并将问题分解为多步骤计划。它们使用适当的工具,与其他智能体协作,并使用来自内存的上下文来正确执行任务。在NVIDIA加速系统上,它从一个简单的提示开始。让我们请求Perplexity帮助在巴黎开办一辆食品卡车。首先,Perplexity智能体对提示进行推理并制定计划。然后调用其他智能体来帮助处理每个步骤。市场研究员使用多种工具,阅读评论和报告,以发现趋势并分析竞争市场。基于这项研究,概念设计师探索当地食材并提出菜单,包括准备时间估算,并研究调色板,生成品牌标识。然后,财务规划师使用蒙特卡洛模拟来预测盈利能力和增长轨迹。运营规划师制定一个启动时间表,包含从购买设备到获得正确许可证的每一个细节。营销专员制定一个启动计划,包括社交媒体活动,甚至编写一个交互式网站,包括地图、菜单和在线订购功能。每个智能体的工作最终汇集成一个最终的方案包。而这一切,都始于一个单一的提示。” [视频播放结束] [掌声]
一个提示。像那样的单一提示,在最初的聊天机器人中只会产生几百个token。但现在,将那个单一提示输入到一个智能体中以解决问题,它肯定产生了1万倍以上的token。这就是为什么需要Grace Blackwell的原因。这就是为什么我们需要性能,以及系统在代际之间性能要高得多的原因。
这就是Perplexity构建其智能体的方式。每家公司都必须构建自己的智能体。这太棒了。你将会从OpenAI、Gemini、Microsoft Copilot、Perplexity和Mistral那里雇佣智能体。会有为你构建的智能体,它们可能会帮助你规划假期,或者去做一些研究等等。然而,如果你想建立一家公司,你将需要使用专门工具的专门智能体,以及具备专门技能的专门智能体。所以问题是,你如何构建那些智能体?因此,我们为你创建了一个平台。我们创建了一个框架和一套工具,你可以使用,还有一大批合作伙伴来帮助你做到这一点。
它从最底层开始。在最底层,是拥有我之前谈到的推理模型的能力。NVIDIA的Nemo、Nemotron推理大语言模型是世界一流的。我们有Nemo Retriever,它是一个多模态搜索引擎,语义搜索引擎,非常了不起。我们构建了一个蓝图,一个可操作的演示,它本质上是一个通用智能体,我们称之为IQ AI,AIQ。在顶层,我们有一套工具,允许你引导一个通用智能体,整理数据来教导它,评估它,设置护栏,监督训练它,使用强化学习,一直到部署,确保它的安全。那套工具包被集成,那些库被集成到AI ops生态系统中。你也可以自己从我们的网站上下载它,但它主要集成在AI ops生态系统中。从那里,你可以创建自己的特殊智能体。
许多公司正在这样做。这是思科,他们昨天宣布了。我们正在共同构建用于安全的AI平台。现在看这个,AI智能体不是一个能做所有这些神奇事情的模型。它是一个模型的集合,一个系统。它是一个AI大语言模型的系统。其中一些针对特定类型的事情进行了优化,例如我提到的检索,使用计算机执行技能。你不想把所有这些东西都捆绑到一个巨大的,你知道的,AI集合体中,而是把它们分解成小的东西,然后你可以随着时间的推移进行CI/CD部署。这是思科的一个例子。
现在的问题是,你如何部署这个?因为正如我之前提到的,有公共云,NVIDIA的计算资源在那里。有区域云,我们在这里称之为NCP,例如Mistral。你可能因为安全要求和数据隐私要求而拥有私有云。你甚至可能决定在你的办公桌上放一些东西。所以问题是,你如何运行所有这些?有时它们会在不同的地方运行,因为这些都是微服务,这些AI可以相互通信,它们显然可以通过网络相互通信。那么,你如何部署所有这些微服务呢?
我们现在有一个很棒的系统,我很高兴向大家宣布这个,它叫做我们的DGX Leptton。DGX Leptton。你在这里看到的是一大堆不同的云。这里是Lambda云,AWS云,你知道的,这里是你自己的开发者机器,你自己的系统,可能是DGX Station,NBS Yoda和Scaleit,可能是AWS,可能是GCP。NVIDIA的架构无处不在。所以你可以决定你想在哪里运行你的模型。你使用一个超级云来部署它,所以它是一个云中云。一旦你让它工作起来,一旦你将这些NIM部署到Leptton中,它就会在你决定的各种云上托管和运行。一种模型架构,一次部署,你就可以在任何地方运行它。你甚至可以在这个小小的机器上运行它,你知道的,这个DGX Spark。
是咖啡时间吗?
看看这个。 [掌声]
这个升降机有200马力。这是我最喜欢的小机器,DGX Spark。第一台AI超级计算机,我们在2016年建造了一台AI超级计算机,叫做DGX1。它是我一直在谈论的所有东西的第一个版本,八个Volta GPU通过MVLink连接。我们花费了数十亿美元来建造它。在我们宣布DGX1的那天,没有客户,没有兴趣,没有掌声,百分之百的困惑。为什么有人会建造那样的计算机?它能运行Windows吗?不行。
所以我们还是建造了它。嗯,谢天谢地,旧金山一家年轻的初创公司,一个非营利性初创公司,看到这台电脑非常高兴,他们说:“我们能要一台吗?”我想:“天哪,我们卖出去一台了。”但后来我发现它是个非营利组织。但我还是把一台DGX1放进我的车里,开到了旧金山。那家公司的名字是OpenAI。
我不知道这里的人生教训是什么。有很多非营利组织,你知道的。所以下次,下次吧。但也许教训是这个:如果一个开发者向你求助,需要一个GPU,答案是肯定的。所以,没错。
所以,想象一下你有Leptton,它在你的浏览器里,你有一个Helm图表,一个你已经开发的AI智能体,你想在这里运行它,其中一部分你想在AWS中运行,另一部分你想在某个区域云中运行。你使用Leptton,部署你的Helm图表,它就神奇地出现在这里了。好的。所以,如果你想在这里运行它,直到你完成并准备好部署它,然后再部署到云中,那太棒了。但最美妙的是,这个架构是基于Grace Blackwell的。嗯,GB10对比GB200对比GB2300,以及所有这些不同版本,但这个架构完全是Grace Blackwell。现在这太神奇了。
我们正在为Lepton做这件事,但接下来是Hugging Face。NVIDIA已经将Lepton连接起来。所以,无论你何时在Hugging Face上训练模型,如果你想将其部署到Lepton并直接部署到Spark,都没问题,只需点击一下即可。所以,无论是训练还是推理,我们现在都已连接到Hugging Face,Lepton将帮助你决定要将其部署到何处。让我们来看一下。
[视频播放开始] “开发者需要轻松可靠地访问计算资源,无论他们身在何处,无论他们在构建什么,这些计算资源都能跟上他们的工作节奏。DGX Cloud Leptin提供对全球GPU网络的按需访问,这些网络遍布云端、区域和合作伙伴,如Yoda和Nebius。多云GPU集群通过单一统一界面进行管理。配置速度快,开发者可以快速扩展节点数量,无需复杂设置,并利用预集成的工具和为训练准备好的基础设施立即开始训练。进度实时监控,GPU性能、收敛性和吞吐量尽在掌握。你可以直接在控制台中测试你微调过的模型。DGX Cloud Leptin可以在多个云或区域部署NIM端点或你的模型,以实现快速分布式推理。就像共享出行应用连接乘客和司机一样,DGX Cloud Leptin将开发者与GPU计算能力连接起来,为虚拟的全球AI工厂提供动力。” [视频播放结束]
DGX Cloud Leptton。
好的,那是思科。这是SAP的方式,他们正在NVIDIA上构建一个AI平台。SAP正在NVIDIA上构建一个AI业务应用自动化。deepl正在NVIDIA上构建他们的语言框架和平台。AI photo Room,一个视频编辑和AI编辑平台,正在NVIDIA上构建他们的平台。这是Kodo,以前我认为是Kodium,一个令人难以置信的编码智能体,构建在NVIDIA之上。这是Iola,一个语音平台,构建在NVIDIA之上。而这个是一个临床试验平台,世界上最大的临床试验自动化平台,构建在NVIDIA之上。
所以所有这些,所有这些基本上都建立在相同的理念之上:NIMs,它封装并打包在一个虚拟容器中,你可以部署到任何地方;Nemotron大语言模型或其他大语言模型,如Mistral或其他;然后我们集成库,这些库基本上覆盖了AI的整个生命周期,一个AI智能体。你对待AI智能体的方式有点像对待一个数字员工。所以你的IT部门将不得不引导它们,微调它们,训练它们,评估它们,让它们保持在护栏内,你知道的,确保它们的安全,并持续改进它们。整个框架平台被称为Nemo,所有这些现在都正在被集成到一个又一个的应用框架中,遍布世界各地。这只是其中几个例子。
然后现在我们使你可以在任何地方部署它们。如果你想在云中部署它,你有DGX,你有云中的GB200。如果你想在本地部署它,因为你有VMware或Red Hat Linux或Nutanix,并且你想在本地的虚拟机中部署它,你可以做到。如果你想将其部署为私有云,你也可以做到。你可以一直部署到你的DGX Spark或DGX Station上,没问题。所以Lepton将帮助你完成所有这些。
工业AI与欧洲机遇
让我们谈谈工业AI。这是我最喜欢的时刻之一。这是罗兰·布什。这真是一个非常有趣的时刻,他想提醒我,神经计算机,神经网络计算机是在欧洲发明的。这就是整张幻灯片的内容。看,我只是觉得这真是一个伟大的时刻。这是Synapse One。这太不可思议了,伙计们,Synapse One。这是Synapse One,1992年。它运行神经网络的速度比当时CPU快8000倍。是不是很不可思议?所以这是世界上的AI计算机。
罗兰只是想,只是想让我永远不要忘记,詹森,永远永远不要忘记。我说:“好吧,好吧,好的,好的。我会告诉,我甚至会告诉所有人,西门子1992年。”西门子1992年。我们与西门子有着很好的合作关系。西门子以及CEO罗兰·布什正在为公司注入强大动力,以便他们能够完全跨越上一次IT工业革命,并将欧洲的工业能力、西门子的强大工业能力与人工智能融合,创造所谓的工业AI革命。我们与西门子在许多不同领域进行合作,从设计到模拟,工厂的数字孪生,工厂中AI的运营,从头到尾的一切。这让我想起,欧洲的工业能力是多么令人难以置信,这对你们来说是多么非凡的机遇。多么非凡的机遇,因为AI不同于软件,AI是非常非常智能的软件。这种智能软件最终可以做一些事情,彻底改变你们所服务的行业。
所以我们制作了一封,如果你愿意的话,可以称之为情书的视频。让我们播放它。
[视频播放开始] “它始于此地,第一次工业革命。瓦特的蒸汽机和机械织布机引入了自动化,工厂的出现和工业的诞生。电力时代,安培揭示了电磁学之谜。[音乐]法拉第制造了第一台发电机,麦克斯韦为现代电气工程奠定了基础。西门子和惠斯通的发电机,电力的引擎,为机器、火车、工厂和城市注入活力,使地球电气化,点燃了现代制造业。而今天,诞生于计算和信息时代的第四次工业革命,人工智能时代,正在重新构想工业的每一个部分。在整个大陆,工业人工智能正在兴起,从设计到工程,你们正在开辟通往理解和重塑的新道路。你们将物理世界带入虚拟世界,以规划和优化世界上的现代化工厂。你们正在构建下一个前沿,在那里,所有移动的东西都是机器人,每辆汽车都是一个智能自主代理,以及一个新的协作劳动力队伍,以帮助弥合全球劳动力短缺的差距。整个大陆的开发者正在构建各种类型的机器人,在数字孪生世界和机器人展上教它们新技能,让它们准备好在我们的工厂、仓库、手术室和家中与我们并肩工作。第四次工业革命已经到来,就在第一次工业革命开始的地方。” [视频播放结束]
你们觉得怎么样?
我喜欢那个视频。是你制作的吗?太棒了。是你制作的。
我们正在与一家又一家的公司合作开展工业AI。这是宝马,他们正在Omniverse中建造下一代工厂。
这是……我不知道怎么发音,有人能教教我吗?听起来不错。嗯,完全正确,说得好,说得好。完全正确。他们当然正在建造他们的工厂,在Omniverse中构建数字孪生。这是凯傲,他们的数字孪生用于……嗯……仓库物流。这是梅赛德斯-奔驰,以及他们在Omniverse中建造的工厂的数字孪生。这是舍弗勒,以及他们在Omniverse中建造的仓库的数字孪生。这是你们法国的火车站,在Omniverse中建造他们火车站的数字孪生。这是丰田,在Omniverse中建造他们仓库的数字孪生。
当你把这些仓库和工厂建在Omniverse里,那么你就可以设计它,规划它,在绿地项目中这很棒,在棕地项目中也很棒。你可以在实际去搬运东西之前模拟它的有效性,以发现它并非最优。因此,在数字孪生中以数字方式完成所有事情的能力令人难以置信。但问题是,为什么数字孪生必须看起来像照片一样逼真,为什么它必须遵守物理定律?原因在于,我们最终希望它成为一个数字孪生,机器人可以在其中学习如何作为机器人操作。而机器人依靠光子进行感知系统,这些光子是通过Omniverse生成的。机器人需要与物理世界互动,这样它才能知道自己是否在做正确的事情,并学习如何正确地去做。所以这些数字孪生必须看起来真实,并且行为逼真。好的。这就是为什么Omniverse被建造出来的原因。
这太棒了。这是一个聚变反应堆的数字孪生,如你所知,是一个极其复杂的仪器。没有AI,下一代聚变反应堆将不可能实现。
我们今天宣布,我们将在欧洲建立世界上第一个工业AI云。是的。
这些工业AI云,是的,云中有大量的计算机。然而,它的要求、它的性能、它的安全要求是根本不同的。所以我周五会告诉你们更多关于它的信息,今天我只是透露一部分。但是这个工业云将用于设计和模拟,虚拟风洞,你只需走进虚拟风洞,将一辆汽车移入,你就能看到它的行为,打开车门,打开车窗,实时改变设计,一切都在实时进行。实时设计,在数字风洞的数字孪生中实时模拟,在数字工厂的数字孪生中实时建造,所有这些,并让机器人学习如何成为伟大的机器人,并建造我们未来的机器人。
自动驾驶汽车等等。我们在这里已经拥有了巨大的生态系统。如你所知,我们在这里已经有很长时间了。NVIDIA已经成立33年了。我们第一次来欧洲是在工作站和产品数字化,即CAD革命开始的时候。我们经历了CAE革命,现在是数字孪生革命。在欧洲,我们与大约2万亿美元的生态系统合作,并且有幸为之提供支持。
自动驾驶与机器人技术
由此产生的是一场正在发生的新革命。如你们所知,所有移动的东西都将是机器人,所有移动的东西都将由AI驱动,而汽车是最明显的下一个。我们构建AI超级计算机来训练模型,构建用于Omniverse数字孪生的AI超级计算机,我们也为机器人本身构建AI超级计算机。在每一种情况下,无论是在云端用于Omniverse,还是在汽车中,我们都提供整个堆栈:计算机本身,运行在这台计算机上的操作系统——每种情况下都不同——这台计算机,高速、传感器丰富,必须具备功能安全,在任何情况下都不能完全失效。所以安全要求非常高。
现在我们有一个令人难以置信的模型位于其上。这个模型是一个Transformer模型,它是一个推理模型,它接收传感器输入,你告诉它你希望它做什么,它就会载你到那里。它接收像素输入,并生成路径规划输出。所以它是一个基于Transformer的生成式AI模型,令人难以置信的技术。NVIDIA的AI团队,AV团队,非常了不起。
据我所知,这是唯一一支连续两年在CVPR(计算机视觉与模式识别会议)的端到端自动驾驶汽车挑战赛中获胜的团队。所以他们今年再次获胜。让我们看一下视频。是的,谢谢。
[视频播放开始] “与任何驾驶员一样,自动驾驶汽车在充满不可预测和潜在安全关键场景的世界中运行。NVIDIA Drive基于Halo安全系统构建,使开发人员能够利用多样化的软件堆栈和传感器以及冗余计算机来构建安全的自动驾驶汽车。它始于训练。安全的自动驾驶汽车需要大量多样化的数据才能应对边缘情况,但现实世界的数据有限。开发人员使用NVIDIA Omniverse和Cosmos来重建现实世界并生成逼真的合成训练数据,从而为自动驾驶汽车模型带来多样性。该模型可以感知和推理其环境,预测未来结果并生成运动规划。为了决策的多样性,一个独立的经典堆栈并行运行。护栏监控安全性能,并在出现异常情况时调用仲裁器进行紧急停车。传感器和计算架构中还内置了进一步的多样性和冗余性。每个传感器都连接到冗余计算机,因此即使传感器或计算机发生故障,车辆也能保持安全和可操作。在发生严重故障的情况下,系统可以执行最小风险操作,例如靠边停车。安全是自动驾驶的基础。NVIDIA Drive使全球开发人员能够将Halo集成到他们自己的产品中,以构建下一代安全的自动驾驶汽车。” [视频播放结束]
路上有10亿辆汽车,平均每年行驶1万英里,总计10万亿英里。自动驾驶的未来显然是巨大的,它将由AI驱动。这是下一个巨大的机遇,我们正在与世界各地众多优秀的公司合作,以实现这一目标。我们在这里所做的一切,AV的核心是安全,我们为我们的Halo系统感到非常自豪。它始于芯片的架构,然后是芯片设计和系统设计、操作系统、AI模型、软件开发方法论、我们的测试方式,从我们训练模型的方式、我们为模型提供的数据,一直到我们评估模型的方式。NVIDIA的Halo系统以及我们的AV安全团队和能力在世界范围内都享有盛誉。这台计算机是世界上第一台软件定义的,100%完全软件定义的,AI驱动的,用于AV的AI驱动堆栈。我们从事这项工作现在已经快10年了,所以这项能力在世界范围内都享有盛誉,我为此感到非常自豪。
同样的事情正在汽车领域发生,也正在一个新的行业发生。正如我之前提到的,如果你能从提示生成视频,如果AI能够感知、推理,并且能够生成视频、文字和图像,以及刚才提到的汽车路径、方向盘路径,为什么它不能也生成局部运动能力和关节运动能力呢?所以,AI彻底改变最困难的机器人问题之一的这种基本能力即将到来。
人形机器人将会成为现实。我们现在知道如何建造这些东西,训练这些东西,以及操作这些东西。人形机器人技术很可能成为有史以来最大的产业之一。它需要那些知道如何制造东西,制造具有非凡能力的东西的公司。这充分说明了欧洲国家的能力,世界上如此多的产业都基于这里,我认为这将是一个巨大的机遇。
好吧,假设全世界有十亿个机器人。现在看来,有十亿个机器人的想法是非常合理的。那么为什么它还没有发生呢?原因很简单,今天的机器人太难编程了。只有最大的公司才有能力安装一个机器人,教它,编程让它做完全正确的事情,并充分保护它以确保安全。这就是为什么世界上最大的汽车公司都有机器人,它们足够大,工作足够重复,行业规模也足够大,可以将机器人部署到那些工厂中。几乎所有中小型公司,或者夫妻老婆店、商店或仓库,都不可能拥有那种编程能力。直到现在。
我们将基本上为你提供可以教导的机器人,它们会向你学习,就像我们谈论智能体AI一样。我们现在有了人形AI,它可以利用与我之前谈到的Nemo工具包非常一致的工具包,从你的教学中学习。NVIDIA在这里也构建了三层堆栈。我们构建计算机,Thor计算机开发套件,看起来有点像这样。
这是一个机器人计算机,完全自包含的开发套件,放在你的桌子上。这些都是传感器,里面是一个小小的超级计算机Thor芯片,非常非常了不起。是的。
我可以想象把其中一个像那样植入进去。
好的,谢谢Janine。那就是Thor处理器。上面是一个专为机器人技术设计的操作系统。再往上是Transformer模型,它接收传感器和指令,进行转换,并生成飞行或路径以及用于手臂关节、手指关节当然还有腿部关节的电机控制。
现在,人形机器人技术的一大挑战是训练它所需的数据量非常难以获取。那么问题是,你该怎么做呢?解决这个问题的办法是,回到Omniverse,一个遵守物理定律的数字孪生世界。这是我们正在做的一项令人难以置信的工作。
别动,别动。
哦,我的错。好的。这些是机器人。 [掌声]
我们开发计算机来模拟它们,训练它们,开发计算机来模拟它们,以及放入它们体内的计算机。世界各地正在涌现出一大批人形机器人公司,它们都看到了革新这种新设备的巨大机遇。进展非常迅速。它们学习的方式都是在虚拟世界中学习,这个虚拟世界必须遵守物理定律。最近,我们宣布了与迪士尼研究院和DeepMind的一项重大合作,我们将共同创造世界上最复杂的物理模拟。我现在只是在想办法切换到那张幻灯片。
教教我,谁支持我?
当你只排练一次的时候就会发生这种事。好的。这个令人难以置信的系统,这个令人难以置信的系统,就是AI学习如何成为AI的地方。让我给你们看看。 [音乐] 怎么了? [音乐]
我们有一位特别的客人。 [掌声]
你叫Greck。你是个小男孩还是小女孩?好吧,他叫Greck,是个小女孩。
现在看这个,Greck在Omniverse里学会了走路,遵守物理定律。在Omniverse里,我们创造了成百上千种场景。最后,当Greck学会在那些环境里操作、行走和操纵,在沙地上、在你知道的、在碎石路上、在光滑的地板上、在水泥地上、在地毯上。然后,当Greck来到物理世界时,物理世界只是世界的第十万零一个版本。所以你在虚拟世界里学会了走路。看看你现在。你能跳吗?
哇!
你会跳舞吗?
嗯,我想,我想让你知道,我是主题演讲人。所以我需要你,我需要你乖一点。我需要你乖几秒钟。我需要你乖几秒钟。你能坐下吗?坐下。嘿,你知道我们该做什么吗?我们来给大家拍张照。 [音乐] 是的。砰,砰。
你想跟我回家吗?你想跟我回家吗?我有……是的,我知道。是的,我有宠物,它们会喜欢把你当宠物的。
不,不。你真聪明。你真聪明。
嗯,太不可思议了,对吧? [掌声]
你是世界上最棒的机器人。总有一天我们都会拥有像你这样的机器人,它们会跟着我们。但是如果我需要,如果我需要一杯威士忌,你就得去叫别人给我拿一杯威士忌,因为你没有胳膊。
是的,你真可爱。好了,小姑娘,你在这儿待一会儿。我们来总结一下。
总结与展望
好了,非常清楚,非常清楚,一场工业革命已经开始。AI的下一波浪潮已经开始。Greck就是一个完美的例子,展示了现在机器人技术所能达到的程度。教导机器人操控、模拟所需的技术,当然还有一台令人难以置信的机器人的具体体现,现在就在我们眼前。我们有物理机器人,我们也有信息机器人,我们称之为智能体。
所以AI的下一波浪潮已经开始,它将需要推理工作负载爆炸式增长。基本上,使用推理的人数将呈指数级增长,从800万增加到8亿,在短短几年内增长了100倍。正如我之前提到的,提示所产生的token数量从几百个增加到数千个。当然,我们现在比以往任何时候都更多地使用AI。
所以我们需要一台专为思考、专为推理而设计的特殊计算机,那就是Blackwell,一台会思考的机器。这些Blackwell将被用于新型数据中心,本质上是AI工厂,它们只为一件事而设计,那就是生成token。这些token将成为你们的食粮,小Greck。是的,我知道,我知道。
而真正令人难以置信的是,我非常高兴看到欧洲正在全力投入AI。未来几年,这里建设的AI基础设施数量将增加一个数量级。我要感谢大家的支持。祝大家在VivaTech展会愉快。谢谢你们。说再见,说再见。多拍些照片,多拍些照片,多拍些照片。
是的。 [掌声] [音乐]
要点回顾
开场与AI的愿景
- 智能是如何制造的:一种新型工厂。
- token的生成器,AI的基石。
- Token开启了新的前沿,是进入无限可能世界的垫脚石。
- Token将图像转化为科学数据,绘制外星大气层,引导未来的探索者。
- Token探测地球深处,寻找隐藏的危险。
- Token将潜力转化为丰饶,帮助我们收获。
- Token在疾病显现前发现它,进行精确治疗,了解我们的身体机制。
- Token连接信息点,使我们能保护最高贵的生物。
- Token解码物理定律,让我们移动更快,使我们的日子更高效。
- Token不仅教机器人如何移动,还带来欢乐和安慰。
- Token帮助我们前进,人类的一小步成为人类的一大步。
- 欢迎NVIDIA创始人兼CEO黄仁勋登台。
- 这是NVIDIA在巴黎的首次GTC。
NVIDIA计算平台与CUDA生态
- NVIDIA早期目标:创建一个新的计算平台,完成普通计算机无法完成的任务。
- 我们加速了CPU,创造了一种称为加速计算的新型计算。
- 首批应用之一是分子动力学。
- 加速计算的特殊性在于:它不仅仅是一个新的处理器,你编译软件到上面;你必须重新构建你的计算方式,你必须重新构建你的算法。
- 我们创建了库来帮助每个市场、每个应用领域实现加速。
- 每个库都为开发者开辟了新机会,也为我们和我们的生态系统合作伙伴开辟了新的增长机会。
- 计算光刻(computational lithography):当今半导体设计中最重要的应用之一,在台积电、三星等大型半导体工厂运行。
- coup litho:一种逆物理算法,用于计算光刻。
- coop:直接稀疏解算器,代数多重网格解算器,最近开源。此库加速决策制定,优化具有数百万变量和数百万约束的问题,如旅行商问题。
- warp:一个用于表达几何和物理求解器的Pythonic框架。
- QDF, QML:结构化数据库、数据帧、经典机器学习算法。QDF加速Spark(零代码更改),QML加速Scikit-learn(零代码更改)。
- dynamo and QDNN:QDNN是NVIDIA创建的最重要的库之一,加速深度神经网络的原语。Dynamo是我们的新库,用于在整个AI工厂中分派、编排、分发极其复杂的推理工作负载。
- c equivariance and coupensor:张量收缩算法,等变性用于遵循几何定律的神经网络,如蛋白质、分子。
- aerial and shiona:一个重要的框架,使AI能够运行6G。
- Earth 2:我们用于天气和气候基础模型的模拟环境,公里级高分辨率。
- monai:我们用于医学成像的框架,非常受欢迎。
- parabicks:我们用于基因组学分析的求解器,非常成功。
- Coup(CUDA Q):用于量子计算。
- coupler:用于numpy和scipy。
- CUDA-X:这一系列库,用于在CUDA之上加速应用程序和算法。
- CUDA Q:用于量子计算,用于基于GPU的经典-量子、量子-经典计算。我们已经研究CUDAQ好几年了。
量子计算的进展与CUDA-Q
- 量子计算正迎来一个拐点。
- 大约30年前展示了第一个物理量子比特。
- 1995年发明了纠错算法。
- 2023年,Google展示了世界上第一个逻辑量子比特。
- 逻辑量子比特的数量(由大量带有纠错的物理量子比特表示)开始增长。
- 我完全可以预期每5年逻辑量子比特增加10倍,每10年增加100倍。
- 这些逻辑量子比特将变得更好、纠错更强、更鲁棒、性能更高、更有弹性,并将继续可扩展。
- 我们与世界各地的量子计算公司合作。在欧洲有庞大的社群。
- 现在很明显,未来几年或至少下一代超级计算机,每一台都将分配并连接QPU(量子处理单元)到GPU。
- QPU将进行量子计算,GPU将用于预处理、控制、计算密集的纠错、后处理等。
- 今天我们宣布,我们整个量子算法栈现在都在Grace Blackwell 200上加速,速度提升令人难以置信。
- 我们与量子计算行业合作的几种方式:
- 使用coup quantum模拟量子比特或在其上运行的算法,本质上是使用经典计算机模拟量子计算机。
- CUDA Q:发明一种新的CUDA,将CUDA扩展到量子-经典领域,以便在CUDA Q上开发的应用程序可以在量子计算机出现之前以模拟方式运行,或者在量子计算机出现之后以协作方式(量子-经典加速计算方法)运行。
- 今天我们宣布CUDAQ可用于Grace Blackwell。
- 欧洲在科学、超级计算专业知识和该领域传统方面底蕴深厚。
- 未来几年我们将看到一个非常棒的拐点。
AI的浪潮:从感知到生成式再到智能体AI
- 我们与AI的首次接触是在2012年,之前与开发者合作研究一种名为深度学习的新型算法,它促成了2012年AI的AlexNet大爆炸。
- 过去15年左右,AI发展迅猛。
- AI的第一波浪潮是感知:让计算机识别信息并理解它。
- 第二波浪潮(过去五年左右主要讨论的)是生成式AI:它是多模态的,意味着AI能够同时学习图像和语言,因此你可以用语言提示它,它就能生成图像。AI的多模态能力以及翻译和生成内容的能力推动了生成式AI革命。
- 我们正开始新一轮AI浪潮:过去几年,我们在AI能力方面取得了巨大进展。
- 智能的核心在于理解、感知、推理、规划任务(如何解决问题),然后执行任务。这是智能的基本循环。
- 它使我们能够应用先前学到的规则来解决我们从未见过的问题。
- 智能体AI(agentic AI):能够将复杂问题分解,逐步推理如何解决问题,可能进行研究,学习新信息,获取帮助,使用工具,并逐步解决问题。
- 智能体AI的物理实现,其体现形式是机器人技术(robotics)。
- 生成能力现在是生成运动,而不是生成视频、图像或文本。这种AI生成局部运动。
- AI以物理形式体现的能力基本上就是机器人技术。
- 智能体(本质上是信息机器人)和具身AI(物理机器人)这两种基本能力现在已经出现。
GeForce、数字孪生与Blackwell架构
- 这一切都始于GeForce。GeForce带来了计算机图形,这是我们最早从事的加速计算应用。
- GeForce将CUDA带给了世界,使机器学习研究人员和AI研究人员能够推进深度学习。
- 深度学习彻底改变了计算机图形。
- 今天展示的一切都是计算机模拟,不是动画。是光子模拟、物理模拟、粒子模拟。
- 因为我们现在可以模拟几乎所有东西的规模和速度,我们可以把所有东西都变成数字孪生。
- 因为一切都可以成为数字孪生,它可以在投入物理世界之前完全以数字方式进行设计、规划、优化和操作。
- 一切物理的东西都将被数字构建。
- 我们今天会谈论很多关于数字孪生的话题。
- 从GeForce显卡开始,现在看起来是这样的(Grace Blackwell NVL72)。
- Grace Blackwell NVL72 “会思考的机器”:
- 重量:两吨半。
- 部件:120万个。
- 价格:约300万美元。
- 功率:120千瓦。
- 制造:150家工厂。
- 技术伙伴:200家。
- 研发预算:约400亿美元(用于创造GB200及后续的GB300)。
- 设计目标:成为一台会思考的机器,它能推理、规划,花费大量时间与自身对话。
- 架构设计:一个巨大的GPU(与GeForce类比,GeForce是一个GPU,GB200也是一个巨大的虚拟GPU)。
- GB200 “一个巨大的GPU”:
- 我们必须将其分解成许多组件,创造了许多新的网络技术和高能效互连技术,将所有这些芯片和系统连接成一个虚拟GPU。
- Hopper系统:8个GPU通过MVLink连接,上面有一个带双CPU和系统内存的CPU托盘,这代表AI超级计算机的一个节点,约50万美元。
- Grace Blackwell节点:一个计算托盘将取代整个Hopper系统,完全液冷,CPU直接连接到GPU。两个CPU,四个GPU的性能超过整个Hopper系统。
- 我们将其分解,创造了革命性的MVLink系统。
- MVLink:一种内存语义互连,是一个计算结构(compute fabric),而非网络。它直接连接所有这些MVLink系统计算节点的CPU。
- MVLink交换机:9个交换机在顶部,9个在底部,中间是MVLink交换机。
- MVLink spine(脊柱):100%铜质同轴电缆,直接将所有MVLink芯片连接到所有GPU。
- 带宽:约130太字节/秒(132太字节/秒也被提及)。这超过了全球整个互联网峰值流量的数据速率。
- Blackwell在推理性能上的巨大飞跃:
- 半导体物理学每三到五年只能提供大约两倍的性能提升。
- 我们如何在一代内实现30到40倍的性能提升?因为推理模型在与自身对话,而不是一次性的ChatGPT。
- 当你思考时,你会逐步分解问题,进行推理,尝试多种路径(思维链、思维树、最佳选择等),反思自己的答案。
- 这些思考模型、推理模型实现了令人难以置信的性能,但需要更多的计算能力。
- MVLink 72 Blackwell架构在性能上实现了巨大飞跃。
- X轴是思考速度,Y轴是工厂的吞吐量(同时支持大量用户)。目标是工厂收入最大化。
- 基于Blackwell的工厂由于其架构可以产生更多的收入。
- (Blackwell制造过程视频概要):
- 从空白硅晶圆开始,2000亿个晶体管。
- 晶圆上芯片封装工艺(Chip on Wafer on Substrate):32个Blackwell裸片和128个HBM堆栈。
- Blackwell B200超级芯片。
- 在125°C的烤箱中进行数小时的压力测试。
- 机器人将超过10,000个组件放置到Grace Blackwell PCB上。
- 定制液冷铜块。
- Connect X7 Super NICs和Bluefield 3 DPUs。
- 集成到GB200计算托盘中。
- MVLink交换芯片提供每秒14.4太比特的全对全带宽。
- MVLink spines:5000根铜缆,连接所有72个Blackwell(144个GPU裸片)成为一个巨大的GPU,提供每秒130太比特的全对全带宽。
- 机架级AI超级计算机:总共120万个组件,2英里铜缆,130万亿个晶体管,重近2吨。
- Grace Blackwell系统已全面投产。
- 我们现在每周生产一千套这样的系统。
- 2018年最大的Volta系统Sierra超级计算机的性能不如这些机架中的一个,Sierra系统功耗10兆瓦,这个机架功耗100千瓦。
多样化的AI计算系统与AI工厂
- 一个架构 - 从云AI、企业AI、个人AI到边缘AI。
- Grace Blackwell系统,并非所有数据中心都能处理液冷系统。
- 一些数据中心需要企业级堆栈:能够运行Linux Red Hat、Nutanix或VMware,以及来自Dell EMC、Hitachi、NetApp、Vast、Weka等存储系统。
- 所有这些新计算机都已投入生产。
- DGX Spark:使你可以在桌面上拥有Grace Blackwell系统(Spark Desktop,DGX Station桌边型)。架构与大型系统相同,仅规模和速度不同。
- x86系统:世界IT组织仍偏爱x86。
- RTX Pro服务器:
- 全新设计的主板,上有八个Super NIC交换机,连接八个GPU(Blackwell RTX Pro 6000 GPU,刚投产),每秒200吉比特的先进网络芯片。
- 世界上唯一能运行所有已编写软件和NVIDIA开发的所有东西的服务器。
- 运行AI、Omniverse、RTX(用于视频游戏)、Windows、Linux、Kubernetes(包括在VMware中)。
- AI工厂:
- AI数据中心根本不是传统意义上的数据中心(存储文件供检索)。
- 它们只有一个工作:生产智能token。
- AI工厂看起来像数据中心,因为内部有很多计算机,但设计、制造/扩展规模、使用方式、编排/配置/操作方式都不同。
- 没有人真正将数据中心视为创收设施,但AI工厂是创收设施。
- AI工厂现在是一个国家基础设施的一部分。
- 我们正在谈论一场新的工业革命,因为每个行业都受到影响。
- 形成了一个新的AI产业,它现在是新的基础设施——智能基础设施的一部分。
- Stargate示例:1吉瓦,将容纳约50万个GPU裸片。
NVIDIA在欧洲的布局与合作
- NVIDIA在欧洲建立AI技术中心以促进研究和生态系统。
- 欧洲电信运营商的AI基础设施(与NVIDIA合作)。
- 欧洲云服务提供商构建AI基础设施(与NVIDIA合作)。
- 欧洲超级计算中心构建下一代AI超级计算机和基础设施(与NVIDIA合作)。
- 除公共云外,欧洲公司为欧洲市场本土构建的AI基础设施。
- 另有20个AI工厂正在规划中,其中几个是吉瓦级的巨型工厂。
- 未来两年内,欧洲的AI计算能力将增加10倍。
- 我们正在与每个国家合作发展其生态系统。
- 在七个不同的国家建立AI技术中心:进行合作研究,与初创公司合作,并构建生态系统。
- 英国生态系统示例:基于NVIDIA堆栈,NVIDIA是唯一在所有云中都可用的AI架构。与所有云服务提供商合作。加速来自世界最重要软件开发商(如欧洲的Siemens、Cadence、Red Hat、ServiceNow)的应用。重塑了计算堆栈(计算、网络、存储)。与Cisco、Dell、NetApp、Nutanix等建立了良好的合作伙伴关系。软件开发方式已改变(DevOps, MLOps, AI ops)。
- 在德国、意大利、法国均有重要的合作伙伴关系。
- 法国AI合作伙伴关系:
- 与施耐德(Schneider)合作:以数字方式构建AI工厂。在Omniverse中进行数字设计、构建、优化和最终运营。
- 与Mistral合作:今天宣布将共同在此建立一个AI云,以交付其模型并为其他AI初创公司的生态系统提供AI应用。
Nemotron与主权大语言模型
- Nemotron进一步推进领先的开放模型。
- 专有模型和开放模型(如Mistral, Llama, Deep Seek R1, R2, Q1)都在飞速发展。
- Nemotron:获取开源模型(它们都基于NVIDIA构建),进行后训练,可能进行神经架构搜索,提供更好的数据,使用强化学习技术,增强模型,赋予推理能力,扩展上下文长度。
- 打包成可下载的NIM(NVIDIA Inference Microservice)。
- Nemotron在Llama(8B, 70B, 405B)上的改进示例。
- 我们将一代又一代地这样做。
- Nemotron在各种基准测试中性能名列前茅。
- 使用NVIDIA Nemotron构建主权大语言模型(Sovereign LLMs):
- 欧洲各地的区域模型制造商已认识到此策略的优势,并与我们合作,为区域语言调整和增强这些模型。
- “你的数据属于你”。是你们人民的历史、知识和文化。
- 你应该使用这些数据,使用像Nemotron这样的开放模型和我们提供的工具套件,以便为自己所用进行增强。
- 宣布与Perplexity(一个推理搜索引擎)建立重要合作关系。Perplexity将采用这些区域模型并将其直接连接到Perplexity中,这样你现在就可以用你国家的语言、文化和情感来提问并获得答案。
智能体AI平台与部署
- 智能体AI(Agentic AI):
- 预训练模型的局限性:产生幻觉、编造事实、无法获取最新新闻和数据信息、不经过问题推理就放弃、不会使用计算器等。
- 智能体AI的能力:检索增强生成(RAG)、网络搜索、多模态理解(阅读PDF、访问网站、查看图文、观看视频)、从任何提示中理解、推理、规划和自我评估。
- Perplexity的智能体AI示例:在巴黎开办食品卡车。涉及市场研究员、概念设计师、财务规划师、运营规划师、市场专员等多个智能体协同工作。
- 一个提示可能生成比原始聊天机器人多10,000倍的token,这就是为什么需要Grace Blackwell。
- NVIDIA企业AI智能体平台:
- 底层:NVIDIA Nemo、Nemotron推理大语言模型、Nemo Retriever(多模态语义搜索引擎)。
- IQ AI (AIQ):一个通用的智能体蓝图演示。
- 工具套件:用于引导通用智能体、策划数据以进行教学、评估、设置护栏、监督训练、使用强化学习,直至部署、保持安全。
- 集成到AI Ops生态系统中。
- 示例:Cisco与NVIDIA共同构建用于安全的AI平台。智能体AI不是一个模型完成所有事情,而是一个模型系统,一些模型针对特定任务进行了优化。
- DGX Leptton:
- 一个“云中云”系统,用于在不同云(如Lambda Cloud, AWS, GCP, 开发者自己的机器如DGX Station, NBS Yoda, Scaleit)上部署模型。
- 一种模型架构,一次部署,随处运行。
- DGX Spark:
- AI超级计算机,可在桌面上运行(Grace Blackwell架构)。
- (黄仁勋提及将第一台DGX1送给OpenAI的故事)。
- 连接开发者与全球AI计算:
- Hugging Face与NVIDIA已将Leptton连接起来。在Hugging Face上训练模型后,可以一键通过Leptton部署到Spark。
- (DGX Cloud Leptton视频概要):按需访问全球GPU网络,跨云、区域和合作伙伴(如Yoda, Nebius)的多云GPU集群通过统一界面管理,快速配置,预集成工具,实时监控GPU性能,可部署NIM端点或模型。
- 平台用户案例:
- SAP:在NVIDIA上构建AI业务应用自动化。
- deepl:在NVIDIA上构建其语言框架和平台。
- AI photo Room:在NVIDIA上构建其视频和AI编辑平台。
- Kodo(原Kodium):在NVIDIA上构建的编码智能体。
- Iola:在NVIDIA上构建的语音平台。
- 世界上最大的临床试验自动化平台:在NVIDIA上构建。
- 核心理念:NIMs(封装在虚拟容器中,可随处部署),Nemotron或其他大语言模型(如Mistral),Nemo框架(覆盖AI智能体的整个生命周期:引导、微调、训练、评估、护栏、安全、持续改进),可部署在云端、本地(VMware, Red Hat Linux, Nutanix)、私有云、DGX Spark或DGX Station。
工业AI与欧洲机遇
- 罗兰·布什(Roland Bush,西门子CEO)提醒黄仁勋,神经计算机(neural network computers)是在欧洲发明的。
- Synapse One:1992年,运行神经网络的速度比当时的CPU快8000倍。这是世界上的AI计算机(西门子,1992年)。
- 与西门子的重要合作:助力西门子实现飞跃,将欧洲的工业能力、西门子的工业实力与人工智能相融合,创造所谓的工业AI革命。
- 合作领域:从设计到模拟,工厂的数字孪生,工厂中AI的运营。
- (“致欧洲的情书”视频概要):第一次工业革命(蒸汽机),电力时代(安培、法拉第、麦克斯韦、西门子和惠斯通发电机),第四次工业革命(AI时代),工业AI在欧洲各地的应用(从设计到工程、现代工厂的规划与优化、机器人、智能自动驾驶汽车、协作劳动力)。
- 工业AI合作伙伴关系:
- 宝马(BMW):在Omniverse中构建其下一代工厂。
- 蒂森克虏伯(thyssenkrupp nucera):在Omniverse中构建其工厂的数字孪生。
- 凯傲(Kion):用于仓库物流的数字孪生。
- 梅赛德斯-奔驰(Mercedes-Benz):在Omniverse中构建其工厂的数字孪生。
- 舍弗勒(Schaeffler):在Omniverse中构建其仓库的数字孪生。
- 法国火车站:在Omniverse中构建其火车站的数字孪生。
- 丰田(Toyota):在Omniverse中构建其仓库的数字孪生。
- 数字孪生需要照片般逼真并遵守物理定律,以便机器人学习如何操作。
- 聚变反应堆数字孪生。
- 世界首个工业AI云在欧洲:
- 我们今天宣布,将在欧洲建立世界上第一个工业AI云。
- 用于设计和模拟,虚拟风洞(实时设计、在数字风洞中模拟、在数字工厂中构建),让机器人学习成为优秀的机器人。
- 欧洲的生态系统:约2万亿美元。
自动驾驶与机器人技术
- NVIDIA Drive自动驾驶汽车平台:
- “所有移动的东西都将是机器人技术,所有移动的东西都将由AI驱动,汽车是最明显的下一个。”
- 用于训练模型的AI超级计算机,用于Omniverse数字孪生的AI超级计算机,以及用于机器人本身的AI超级计算机。
- 提供整个堆栈:计算机本身,其上的操作系统(功能安全),以及其上的Transformer模型(推理模型,输入传感器数据和指令,输出路径规划)。
- NVIDIA的AV(自动驾驶汽车)团队连续两年在CVPR的端到端自动驾驶汽车挑战赛中获胜。
- (Drive视频概要):Halo安全系统,通过NVIDIA Omniverse和Cosmos生成多样化的真实合成训练数据,模型感知、推理、预测并生成运动规划,独立的经典堆栈并行运行,护栏监控安全性能,异常时仲裁器进行紧急停车,传感器和计算架构中的多样性和冗余性,关键故障时执行最小风险操作。
- 路上有10亿辆汽车,平均每年行驶1万英里,总计10万亿英里。
- Halo系统:从芯片架构、芯片设计、系统设计、操作系统、AI模型、软件开发方法论、测试方式、模型训练方式、数据提供到模型评估方式。
- 这台计算机是世界上第一台软件定义、完全由AI驱动的AV堆栈的计算机。
- NVIDIA Isaac开放式机器人开发平台:
- 如果AI能够感知、推理并生成视频、文字和图像,以及汽车的路径,为什么它不能生成局部运动能力和关节运动能力?
- 人形机器人将成为现实。这可能是迄今为止最大的产业之一。
- 挑战:当今机器人编程过于困难。
- 解决方案:可教机器人,人形AI通过与Nemo工具包一致的工具包从教学中学习。
- 三层堆栈:Thor计算机开发套件(自包含的机器人计算机),专为机器人设计的操作系统,以及Transformer模型(获取传感器和指令,将其转换并生成飞行/路径和手臂/手指/腿部关节的电机控制)。
- 人形机器人技术的一大挑战是训练所需的数据量难以获取。解决方案是在Omniverse(一个遵守物理定律的数字孪生世界)中进行。
- (机器人Greck演示):Greck在Omniverse中学会了行走,遵守物理定律。在Omniverse中创建了数十万种场景。当Greck进入物理世界时,物理世界只是世界的第十万零一个版本。
总结与展望
- 一场工业革命已经开始。
- AI的下一波浪潮已经开始:物理机器人和信息机器人(我们称之为智能体)。
- 推理工作负载将爆炸式增长:使用推理的人数从800万增加到8亿(两年内增长100倍),每个提示生成的token数量从几百个增加到数千个。
- 我们需要一台专为思考、专为推理而设计的特殊计算机,那就是Blackwell,一台会思考的机器。
- 这些Blackwell将被用于新型数据中心,即AI工厂,它们只为一件事而设计:生成token。
- 欧洲正全力投入AI,未来几年这里的AI基础设施数量将增加一个数量级。