Elon Musk & xAI Team · 2025-02-18

xAI 团队展示 Grok 3：下一代 AI 的强大功能与未来展望

摘要

xAI 发布会展示了新一代大型语言模型 Grok 3，其算力较前代提升超过十倍，依托自建十万块 H100 GPU 数据中心实现性能飞跃。Grok 3 在数学推理、编码、STEM 等基准测试中领先，并推出 Deep Search 搜索引擎和独立应用，面向 X Premium Plus 用户开放，预告语音交互等新功能即将上线。

核心概念及解读

Grok 3：xAI 推出的新一代大型语言模型，算力较 Grok 2 提升十倍以上，在多项基准测试中表现领先

Deep Search：由 Grok 驱动的下一代搜索引擎，融合推理能力与工具调用，支持多来源验证和透明推理过程

测试时计算（Test-time Compute）：在推理阶段投入更多计算资源以提升模型输出质量的技术策略

H100 GPU 集群：xAI 在 122 天内建成的十万块 GPU 全连接数据中心，为 Grok 3 训练提供核心算力支撑

Big Brain 模式：Grok 3 的增强推理模式，通过分配更多计算资源来处理复杂问题，提升深度推理能力

xAI 团队展示 Grok 3：下一代 AI 的强大功能与未来展望
原文标题：xAI’s Mind Blowing Grok 3 Demo w/Elon Musk & Team (full replay) - YouTube
链接：YouTube

文章类别：博客/技术演示

概述

xAI 在本次发布会上重磅推出了 Grok 3，一款性能大幅超越前代的大型语言模型。发布会由 Elon Musk 及核心团队成员 Igor（工程主管）、Jimmy（研究主管）和 Tony（推理团队）主持，详细介绍了 Grok 3 的技术突破、应用场景和未来愿景。

Grok 3 的性能提升得益于 xAI 自建的庞大数据中心，该中心拥有数十万块 H100 GPU，提供了强大的算力支撑。Grok 3 在数学推理、STEM 知识、编码等多个领域的基准测试中均表现出色，并在 Chatbot Arena 盲测中取得领先。发布会展示了 Grok 3 解决复杂物理问题（计算星际航线）和进行创意任务（设计新游戏）的实例，突出了其强大的推理能力。

除了基础模型，xAI 还推出了 “Deep Search”，一个由 Grok 驱动的下一代搜索引擎。Deep Search 结合了推理能力和工具使用（如网络浏览、代码解释器），能够更深入、透明地回答用户问题，并提供多来源验证。

Grok 3 将率先向 X Premium Plus 订阅用户开放，同时推出 “Super Grok” 订阅，提供更高级功能。xAI 还发布了 Grok 独立应用 (iOS) 和网站 (grok.com)。发布会预告了即将推出的语音交互功能，并强调 Grok 3 仍处于 Beta 测试阶段，但会持续快速迭代。

xAI 团队分享了构建数据中心和训练 Grok 3 过程中遇到的挑战与解决方案，展现了其强大的技术实力和对 AI 前沿领域的不懈追求。发布会最后以 Grok 3 的语音模式演示结束，预示着 AI 交互体验的新篇章。

标签**：

#xAI ， #Grok3 ， #人工智能， #技术演示

内容提要

视频框架与要点：

xAI 及 Grok 的使命 (0:00-1:04):
- xAI 和 Grok 的目标是理解宇宙的本质。
- 探索根本性问题，如外星人、生命的意义、宇宙的起源与终结。
- 追求真理，即使与政治正确性相悖。
- 介绍 Grok 3，性能比 Grok 2 有显著提升。
Grok 的由来与团队介绍 (1:04-2:09):
- 介绍 xAI 团队成员。
- 解释 “Grok” 一词源自科幻小说《异乡异客》，意为深刻理解。
xAI 的发展历程与算力提升 (2:09-5:20):
- 展示 xAI 模型在基准测试（如 MMLU）上的快速进步。
- 强调算力（GPU 数量）对模型性能的重要性。
- 讲述 xAI 自建数据中心的历程：用122天建成10万块H100 GPU集群，随后又用92天将其规模翻倍。
Grok 3 的性能表现 (5:20-7:50):
- 展示 Grok 3 在数学推理、STEM 知识、计算机科学编码等领域的基准测试结果，超越竞争对手。
- 介绍 Grok 3 在 Chatbot Arena 盲测中的优异表现（ELO 分数超过1400）。
- 强调Grok3还在持续改进，用户几乎每天都能感受到性能提升。
Grok 3 的推理能力 (7:50-12:25):
- 强调除了预训练模型，推理能力（强化学习）对 AI 的重要性。
- 展示 Grok 3 解决复杂问题的示例：
  - 物理问题：计算并绘制地球到火星、再返回地球的航天器轨迹。
  - 创意游戏：结合 Tetris 和 Bejeweled 两款游戏，创造新游戏。
- 介绍 “Big Brain” 模式：为 Grok 提供更多计算资源，增强推理能力。
Grok 3 推理模型的基准测试 (12:25-17:22):
- 展示 Grok 3 推理模型在数学、科学、编码等领域的详细测试结果。
- 介绍 “测试时计算”（test-time compute）概念：通过增加推理时间，进一步提升模型性能。
- 强调 Grok 3 的泛化能力：在最新的 AMIE 2025 测试中表现出色。
- 讨论AI在数学竞赛中获奖的可能性。
- Grok 在数学和编程问题上训练推理能力，却能泛化到各种其他任务。
数据中心建设与硬件挑战 (17:22-18:24, 35:41-41:47):
- 描述如何将大量GPU连接以及维护。
- 讨论如何能够让这个AI计算集群在122天内可以工作，并且描述了如何解决的硬件和软件上的问题。
实际应用与未来展望 (23:04-30:12):
- 介绍 “Deep Search”：Grok 驱动的下一代搜索引擎，结合推理能力和工具使用（如网络浏览、代码解释器）。
- 展示 Deep Search 的实际应用示例：
  - 查询 Starship 下一次发射时间。
  - 查询游戏攻略（Path of Exile）。
  - 预测体育比赛结果（March Madness）。
- Deep Search 的特点：透明的推理过程、多来源验证、可定制的搜索范围。
Grok 3 发布与获取方式 (29:12-31:44):
- 宣布 Grok 3 向 X Premium Plus 订阅用户开放。
- 推出 “Super Grok” 订阅，提供更高级功能和更早访问权限。
- 介绍 Grok 独立应用 (iOS) 和网站 (grok.com)。
- 强调 Grok 3 仍处于 Beta 测试阶段，但会快速迭代。
- 预告语音交互功能即将推出。
问答环节 (32:08-35:41):
- 语音助手发布时间：尽快，仍在优化。
- Grok 3 API：未来几周内推出。
- 语音模式：原生模型，非文本转语音。
- Grok 的性别：由用户定义。
- 音频转录：将提供此功能。
- 对话记忆：正在开发中。
- 多 Grok 实例：支持。
- 开源计划：Grok 3 成熟后，将开源 Grok 2。
总结与展望 (41:47-结束):
- 强调提供 Grok 3 给用户并看到其被广泛使用是团队的动力。
- 播放 Grok 3 语音模式的演示。

发布会实录

xAI 及 Grok 的使命 (0:00-1:04)

主持人 (Elon Musk): 欢迎大家来到 Grok 3 的发布会！xAI 和 Grok 的使命是理解宇宙，探寻宇宙的本质。

Elon Musk: 我们想知道宇宙的起源、终结，生命的意义，以及是否有外星人存在。正是对这些根本问题的好奇心，驱动着我们。

Elon Musk: 这也促使我们打造一个最大程度追求真理的 AI，即使这意味着与所谓的“政治正确”相悖。要理解宇宙，就必须绝对严格地追求真理，否则就会陷入某种程度的错觉或错误。这就是我们的目标：弄清真相。今天，我们非常激动地向大家展示 Grok 3。我们相信，在极短的时间内，Grok 3 的能力比 Grok 2 提升了一个数量级。这要归功于我们杰出团队的辛勤工作。我很荣幸能与这样一支优秀的团队共事，当然，我们也欢迎全球最聪明的人才加入我们！

Grok 的由来与团队介绍 (1:04-2:09)

主持人 (Elon Musk): 好了，让我们开始吧。

Igor (工程主管): 大家好，我是 Igor，xAI 的工程主管。

Jimmy (研究主管): 我是 Jimmy，负责研究。

Tony (推理团队): 我是 Tony，在推理团队工作。

Elon Musk: 我是 Elon，我偶尔露个面。

Igor: 正如 Elon 所说，Grok 是我们正在开发的 AI 工具。过去几个月，我们一直在努力改进 Grok，希望它能对大家有所帮助，有趣，而且非常非常有趣。接下来，我们将向大家介绍 Grok 的改进。我们在能力上实现了一次巨大的飞跃。

Elon Musk: 事实上，我们应该解释一下为什么叫 Grok。Grok 这个词来自海因莱因的小说《异乡异客》。小说中，一个在火星上长大的人使用这个词。Grok 的意思是完全、深刻地理解某事，并且同理心很重要。

xAI 的发展历程与算力提升 (2:09-5:20)

Jimmy: 如果我们回顾 xAI 过去几个月的发展，会发现我们只用了 17 个月的时间。我们的第一个模型 Grok 1，现在看来几乎像个玩具，只有 3.14 亿参数。现在，如果以时间为横轴，以 MMLU 等基准测试分数为纵轴，我们可以看到 xAI 的进步速度在整个领域都是前所未有的。在 2023 年 11 月发布 Grok 1 之后，我们紧接着推出了 Grok 1.5 和 Grok 2。

Jimmy: 当你拥有一个优秀的工程团队和顶尖的 AI 人才，唯一需要的就是强大的算力。我们可以将 xAI 的发展历程重新绘制，将 y 轴上的基准测试分数替换为总训练计算量，也就是在任何给定时间我们可以运行多少 GPU 来训练我们的大型语言模型，以压缩整个互联网…

Elon Musk: 实际上是全人类的知识。

Jimmy: 是的，互联网只是其中的一部分。现在，整个互联网都可以装进一个 U 盘里了。很快就会进入现实世界。

Jimmy: 过去，训练 Grok 2 时，我们遇到了很多困难。我们在 2 月份启动了这个模型，当时我们认为我们拥有大量的芯片，但实际上，在任何给定时间，我们都很难让 8000 块芯片协同工作。我们遇到了很多散热和供电问题。

Elon Musk: 我记得当时我在数据中心，实际上平均只有 8000 块芯片，效率只有 80%，相当于 6500 块 H100 在训练几个月。但现在我们有 10 万块了！

Jimmy: 是的，那下一步是什么？为了继续加速，我们必须自己解决所有散热、供电等问题。

Igor: 去年 4 月，Elon 决定，xAI 要想成功，构建最好的 AI，就必须建立自己的数据中心。我们没有太多时间，因为我们想尽快把 Grok 3 交给大家。我们意识到，我们必须在 4 个月内建成数据中心。结果，我们花了 122 天让第一批 10 万块 GPU 运行起来。这是一项巨大的努力。我们相信，这是同类中最大的全连接 H100 集群。

Igor: 我们并没有就此止步。我们决定立即将集群规模扩大一倍，才能构建我们想要的 AI。我们又进行了一个阶段，我们还没有公开谈论过，这是我们第一次提到这一点。我们将数据中心的容量又翻了一番。这一次只花了 92 天。在此期间，我们一直在利用所有这些 GPU 和计算资源来改进 Grok。今天，我们将向大家展示由此产生的成果。

Jimmy: 一切努力都指向了 Grok 3。与上一代模型相比，算力增加了 10 倍以上，实际上可能是 15 倍。Grok 3 的预训练在 1 月初完成，但模型实际上仍在训练中。

Grok 3 的性能表现 (5:20-7:50)

Jimmy: 这是我们基准测试结果的一个预览。我们从三个方面评估了 Grok 3：一般数学推理、STEM 和科学常识，以及计算机科学编码。

Jimmy: 我们使用了美国数学邀请赛（AIME）的数据进行评估，AIME 每年举办一次。我们可以看到，Grok 3 在各个方面都遥遥领先，即使是它的“弟弟”Grok Mini，也达到了其他竞争对手的水平。

Jimmy: 你可能会说，这些基准测试只是在评估模型对教科书和 GitHub 代码库的记忆能力。那么实时实用性呢？我们如何在产品中实际使用这些模型呢？为此，我们启动了一个名为 “Chocolate” 的 Grok 3 模型的盲测。

Elon Musk: 非常火热，热巧克力。

Jimmy: 这个盲测在 Chatbot Arena 平台上运行了两周。我想整个 X 平台一度都在猜测这可能是下一代 AI。Chatbot Arena 的工作原理是，它剥离了所有产品表面，只对这些 AI 的引擎，也就是语言模型本身进行原始比较。用户提交一个查询，会得到两个回复，但不知道它们来自哪个模型，然后用户进行投票。在这个盲测中，Grok 3 的早期版本就已经达到了 1400 分的 ELO 评分。没有其他模型达到过这个分数。这不仅仅是在一个类别中，而是在 Chatbot Arena 的所有类别（包括推理、指令遵循、编码）中都达到了 1400 分。它是全面第一，而且还在攀升。

Igor: 事实上，我们有一个版本的模型，我们认为它已经比我们在这里测试的版本好得多了。

Elon Musk: 如果你正在使用 Grok 3，你可能会注意到几乎每天都有改进，因为我们正在不断改进模型。甚至在 24 小时内，你就会看到改进。

Grok 3 的推理能力 (7:50-12:25)

Jimmy: 我们相信，仅仅拥有最好的预训练模型是不够的。最好的 AI 需要像人类一样思考，考虑所有可能的解决方案，自我批评，验证所有解决方案，回溯，并从第一性原理出发思考。这是非常重要的能力。我们相信，通过强化学习继续训练最佳的预训练模型，将激发额外的推理能力，使模型变得更好，不仅在训练时，而且在测试时也能扩展。我们发现，这些模型在内部非常有用，为我们的工程师节省了数百小时的编码时间。

Igor: 像 Jimmy 说的，我们为 Grok 增加了高级推理能力，过去几周我们一直在大量测试这些能力。为了让大家了解 Grok 解决难题时的表现，我们准备了两个小问题，一个来自物理学，另一个是 Grok 将为我们编写的游戏。

Igor: 对于物理问题，我们希望 Grok 绘制一个可行的轨迹，实现从地球到火星的转移，然后在稍后的时间点从火星返回地球。这需要 Grok 理解一些物理知识。我们将挑战 Grok，提出一个可行的轨迹，计算它，然后绘制出来，让我们能够看到。

Elon Musk: 顺便说一句，这完全是即兴的，这就是提示的全部内容。

Igor: 这是 Grok 的界面，我们输入了这段文字：“生成代码，用于绘制从地球发射、降落在火星，然后在下一个发射窗口返回地球的动画 3D 图。” 我们还没有启动查询，你可以看到 Grok 正在思考。Grok 高级推理能力的一部分是这些思考轨迹，你甚至可以进去阅读 Grok 在解决问题时的想法。

Elon Musk: 我们对思考过程进行了一些模糊处理，这样我们的模型就不会被立即完全复制。

Igor: 因为这是完全即兴的，Grok 实际上有可能犯了一个小小的编码错误，它可能无法正常工作。所以，以防万一，我们将启动另外两个实例。如果出现问题，我们可以切换到这些实例。

Igor: 我们还准备了第二个问题。我们在 xAI 最喜欢的活动之一就是让 Grok 为我们编写游戏，不是任何你可能已经熟悉的老游戏，而是当场创造新游戏，并具有创造力。我们发现一个非常有趣的例子是，创建一个融合了 Tetris 和 Bejeweled 两款游戏的游戏。

Elon Musk: 重要的是，如果你让 AI 创建像 Tetris 这样的游戏，互联网上有很多 Tetris 的例子，或者像 Bejeweled 这样的游戏，它可以复制它。有趣的是，它实现了一个创造性的解决方案，将这两款游戏结合起来，而且实际上可行，并且是一款好游戏。我们看到了创造力的萌芽。

Igor: 因为这更具挑战性，我们将使用一种特殊的功能，我们称之为 “Big Brain”。在这个模式下，我们为 Grok 使用更多的计算资源，进行更多的推理，以确保它有很大的机会完成任务。我们也将启动三个尝试来解决这个问题，创建这款融合了 Tetris 和 Bejeweled 的游戏。

Elon Musk: 我玩过这款游戏，它相当不错。

Grok 3 推理模型的基准测试 (12:25-17:22)

Igor: 在 Grok 思考的同时，我们可以谈谈一些具体的数字，看看 Grok 在我们测试过的各种不同任务中的表现如何。

Tony: 好的，让我们看看 Grok 在这些有趣的、具有挑战性的基准测试中的表现。推理是指那些在尝试解决问题之前会思考相当长时间的模型。在这种情况下，大约一个月前，Grok 3 的预训练结束了。之后，我们非常努力地将推理能力添加到当前的 Grok 3 模型中。但这是非常早期的阶段，模型仍在训练中。

Tony: 现在，我们将向大家展示的是 Grok 3 推理模型的 Beta 版本。同时，我们还在训练一个迷你版本的推理模型。在这张图上，你可以看到 Grok 3 推理 Beta 版和 Grok 3 Mini 推理版。Grok 3 Mini 推理版是我们训练时间更长的模型，你可以看到，有时它的表现甚至略好于 Grok 3 推理版。这也意味着 Grok 3 推理版有巨大的潜力，因为它训练的时间要少得多。

Tony: 让我们看看它在三个基准测试中的表现。Jimmy 已经介绍过了，我们主要关注三个领域：数学、科学和编码。对于数学，我们选择了高中竞赛 M 问题。对于科学，我们选择了博士水平的科学问题。对于编码，它也相当具有挑战性，是竞争性编码和 LeetCode，这是人们在面试公司时通常会遇到的编码面试问题。在这些基准测试中，你可以看到 Grok 3 与其他竞争对手相比，表现相当出色。

Tony: 这些模型非常聪明。

(对Tony提问)那些阴影条是什么? Tony: 对于这些可以推理、可以思考的模型，你也可以要求它们思考更长时间，你可以花费更多我们称之为“测试时计算”的时间。这意味着你可以在得出答案之前花更多时间思考问题。在这种情况下，这里的阴影条表示我们只是要求模型花更多时间，你可以在它得出最终解决方案之前多次解决同一个问题。一旦你给模型提供这种计算或预算，模型就可以表现得更好。这就是这些阴影部分的含义。

Jimmy: 现在，我们不仅仅是让 AI 进行一次思维链，而是进行多次。这是一种非常强大的技术，可以在训练后继续扩展模型的能力。人们经常问，我们是否只是过度拟合基准测试，那么泛化能力呢？

Tony: 我们也在问自己，我们是否过度拟合当前的基准测试。幸运的是，我们有一个真正的测试。大约 5 天前，2025 年的 AMIE 刚刚结束，这是高中生参加的一项基准测试。我们拿到了这个全新的竞赛，然后让我们的两个模型在相同的基准测试、相同的考试中进行竞争。结果非常有趣，Grok 3 推理版，也就是更大的那个，在这个全新的考试中表现更好。这也意味着，与较小的模型相比，大模型的泛化能力更强。如果你与去年的考试进行比较，实际上是相反的，小模型似乎更好地学习了以前的考试。所以，这实际上显示了模型某种真正的泛化能力。

Jimmy: 17 个月前，我们的 Grok 0 和 Grok 1 几乎无法解决任何高中问题。现在，我们有一个孩子已经毕业了，Grok 已经准备好上大学了。

Elon Musk: 用不了多久，AI 就会完美地完成人类考试，考试对它来说太简单了。

Jimmy: 在内部，随着 Grok 的不断发展，我们将讨论我们所兴奋的事情。但很快，就不会有任何基准测试了。

Igor: 我认为有一件事非常有趣，我们基本上只在数学问题和竞争性编码问题上训练 Grok 的推理能力，这是非常专业的任务。但不知何故，它能够处理各种各样的其他任务，包括创建游戏，以及很多很多不同的事情。似乎发生的情况是，Grok 基本上学会了这种能力，能够检测自己的错误，纠正错误，坚持解决问题，尝试很多不同的变体，选择最好的。Grok 从数学和编码中学到的这些泛化能力，可以用来解决各种各样的问题。

Jimmy: 现实是数学的实例化。我们非常兴奋的一件事是，回到我们的基本使命，如果有一天我们有一台像“深思”一样的计算机，在测试时利用我们整个集群来解决一个非常重要的问题，所有的 GPU 都打开，那会怎么样？

数据中心建设与硬件挑战(穿插在对话中)

Igor: 我记得当时我们一起构建 GPU 集群，你还在插电缆。当我们打开最初的测试时，你可以在走廊里听到所有 GPU 的嗡嗡声，感觉就像…

Elon Musk: 精神上的。我们能够进入数据中心并摆弄机器，这是一件非常酷的事情。例如，我们进去拔掉了一些电缆，只是为了确保我们的训练设置仍然稳定运行。这是大多数 AI 团队通常不会做的事情，但它实际上解锁了一个全新的可靠性水平，以及你能够用硬件做什么。

Igor: 什么时候能解决黎曼猜想？

Jimmy: 最简单的解决方案是枚举所有可能的字符串，只要你有足够的计算能力和验证器，你就能做到。我的预测是…你的神经网络计算结果是什么？

Elon Musk: 我的预测是，三年后，我告诉过你，现在是两年后，两件事将会发生：我们将看到机器赢得一些奖牌。

Jimmy/Tony: 图灵奖。

Elon/Tony: 菲尔兹奖、诺贝尔奖，可能会有专家参与其中。

Jimmy: 专家提升，你是说今年还是明年？

(回到Grok的Demo演示，展示了之前的两个例子，包括火星轨道和游戏。)

Elon Musk: (在展示完火星轨道后)我们什么时候把 Grok 安装到火箭上？

Igor: 我想是两年后。

Elon Musk: 地球和火星的转移每 26 个月发生一次，下一次将在明年 11 月左右。如果一切顺利，SpaceX 将向火星发射星际飞船火箭，以及 Optimus 机器人和 Grok。

Igor: 我很好奇 Tetris 和 Bejeweled 的结合会是什么样子。

(展示完游戏后)

Igor: 我们准备好在 xAI 成立游戏工作室了吗？

Elon Musk: 是的，我们正在 xAI 推出一个 AI 游戏工作室。如果你有兴趣加入我们并构建 AI 游戏，请加入 xAI。我们今晚宣布成立一个 AI 游戏工作室。

实际应用与未来展望 (23:04-30:12)

Jimmy: 有了最好的预训练模型和最好的推理模型，我们已经看到，实际上赋予这些模型更努力思考、更长时间思考、更广泛思考的能力，性能会持续提高。我们对下一个前沿领域感到非常兴奋，如果我们在允许模型更努力思考的同时，还提供更多工具，就像真正的人类解决问题一样，会发生什么？对于真正的人类，我们让他们只用一支笔和一张纸来解决黎曼猜想。有了所有基本的网络浏览、搜索引擎和代码解释器，就为 Grok Agent 打下了基础，最好的推理模型也为 Grok Agent 打下了基础。

Jimmy: 今天，我们实际上推出了一款名为 Deep Search 的新产品，这是我们第一代 Grok Agent，它不仅帮助工程师、研究人员和科学家进行编码，而且实际上帮助每个人回答日常问题。这是一种下一代搜索引擎，真正帮助你理解宇宙。你可以开始问一些问题，例如，“下一次星际飞船发射是什么时候？”

Jimmy: 让我们试试看。在左侧，我们看到一个高级进度条。模型知识将进行一次搜索，就像当前的检索增强生成（RAG）系统一样。但实际上，它会深入思考，用户的意图是什么，我应该同时考虑哪些事实，我应该阅读多少个不同的网站的内容？如果你想真正深入研究某些主题，这可以节省每个人数百小时的谷歌搜索时间。在右侧，你可以看到当前模型正在做什么、浏览哪些网站、验证哪些来源的要点摘要。通常，它实际上会交叉验证不同的来源，以确保答案在输出最终答案之前是正确的。

Jimmy: 我们可以同时启动更多查询。你是个游戏玩家，对吧？

Igor: 是的。

Jimmy: 那么，Path of Exile Hardcore 中最好、最受欢迎的 Build 是什么？从技术上讲，只需查看 Hardcore 天梯，可能是一种快速找出答案的方法。

Jimmy: 我们还可以做一些更有趣的事情，例如，预测 March Madness 的结果。

Igor: 这很有趣，沃伦·巴菲特有一个 10 亿美元的赌注，如果你能准确匹配 March Madness 的整个获胜树，你就可以从沃伦·巴菲特那里赢得 10 亿美元。如果 AI 能帮助你从巴菲特那里赢得 10 亿美元，那将非常酷。

Elon Musk: 让我们开始吧！

Jimmy: 现在，让我们启动查询，看看模型会做什么。我们可以回到第一个查询。

Elon Musk: 巴菲特没有料到这一点。

Jimmy: 已经完成了！我们得到了第一个查询的结果，模型思考了大约 1 分钟。关键的结论是，下一次星际飞船发射将在 2 月 24 日或之后，不会早于 2 月 24 日，可能会更早。

Jimmy: 我们可以向下滚动，看看模型做了什么。它对第 7 次飞行、停飞原因进行了一些研究，实际上还查看了 FCC 的文件数据，得出了新的结论。如果继续向下滚动，它制作了一个小表格。在 xAI 内部，我们经常开玩笑说，第一个表格的出现时间是唯一重要的延迟。这就是模型进行推理和查找所有来源的方式。

Jimmy: 我们可以看看游戏那个。对于这个特定的查询，它查看了 Build，比如 Infernal。如果我们向下滚动，看看其他 Build 的惊人事实，它查看了 12 个职业。我们会看到，Minion Build 在游戏刚推出时非常受欢迎，现在是 Invoker 的天下。

Igor/Jimmy: Invoker。

Jimmy: 没错，紧随其后的是 Stormweaver，它非常擅长 Mapping。

Jimmy: 我们可以看看 March Madness 的结果。关于 Deep Search，有一件有趣的事情是，如果你进入显示子任务的面板，你实际上可以点击左下角的按钮，然后滚动浏览，实际上阅读 Grok 的想法，模型认为哪些信息是可信的，哪些是不可信的，它是如何交叉验证不同信息来源的。这使得整个搜索体验和信息检索过程对我们的用户来说更加透明。这比任何搜索引擎都强大得多。

Elon Musk: 你可以告诉它只使用来自 X 的来源，它会尝试尊重这一点。它更可控，更智能。它真的应该为你节省大量时间。有些事情可能需要你半小时或一小时在网上搜索或搜索社交媒体，你可以让它去做，10 分钟后，它就为你完成了一小时的工作。

Jimmy: 甚至可能比你自己做得更好。想象一下，你现在有无限的实习生为你工作，你可以启动所有任务，一分钟后回来。

Jimmy: 这将是一个有趣的结果，March Madness 还没有发生，所以我想我们需要跟进一个后续直播。

Igor: 看起来不错，40 美元可能会让你赢得 10 亿美元。

Elon Musk: 40 美元的订阅。

Grok 3 发布与获取方式 (29:12-31:44)

Igor: 用户什么时候可以使用 Grok 3？

Jimmy: 好消息是，我们一直在不知疲倦地努力发布我们展示的所有功能，Grok 3 基础模型具有惊人的聊天功能，非常有用，非常有趣。Deep Search，高级推理模式，所有这些功能，我们都希望今天就向大家推出，首先是 X Premium Plus 订阅用户。这是最初获得访问权限的第一批用户。如果你想看到所有高级功能，请务必更新你的 X 应用，因为我们刚刚发布了更新。如果你有兴趣尽早体验 Grok，请注册 Premium Plus。

Jimmy: 我们还宣布，我们将为 Grok 启动一个单独的订阅，我们称之为 Super Grok，面向那些真正的 Grok 粉丝，他们想要最先进的功能和最早获得新功能的机会。请随时查看。

Igor: 这是针对专门的 Grok 应用和网站吗？

Jimmy: 是的，我们的新网站是 grok.com。

Igor: 你永远猜不到。

Jimmy: 你还可以在 iOS 应用商店中找到我们的 Grok 应用，如果你想让 Grok 触手可及，它会提供更完善的体验。

Elon Musk: grok.com 上的 Web 版本将是最新的、最先进的版本，因为显然，我们需要一段时间才能将某些内容放入应用中，然后获得应用商店的批准。而且，如果某些内容是手机格式，那么你可以做的事情是有限制的。Grok 最强大的版本和最新版本将是 grok.com 上的 Web 版本。

Jimmy: 所以，请注意应用中的 Grok 3 名称，这是明确的标志。如果你看到 Grok Free, 那么你使用的就是最新的版本. 如果它显示 Grok，那么 Grok 还没有完全到达，但我们正在努力今天推出，然后在未来几天内向更多人推出。

Igor: 请确保你也更新了你的手机应用，你将获得我们今天展示的所有工具，包括思考模式和 Deep Search。非常期待大家的反馈。

Elon Musk: 我们应该强调，这是一种 Beta 测试版，这意味着你应该预料到最初会有一些不完善之处，但我们会迅速改进它，几乎每天，实际上我认为每天都会变得更好。如果你想要一个更完善的版本，我建议你等一周，但实际上每天都会有改进。

Elon Musk: 我们还将提供语音交互功能，这样你就可以进行对话。事实上，我今天早些时候试过了，效果相当不错，但我们需要更多的润色。我们可以像与人交谈一样与它交谈，这太棒了。我认为这是 Grok 最好的体验之一，但这可能还需要一周左右的时间。

问答环节 (32:08-35:41)

主持人: 好的，我们可能会有一些观众提问。让我们看看。

观众提问 1: Grok 语音助手什么时候推出？

Tony: 尽快，就像 Elon 说的，只需要再进行一些润色。显然，它将以早期形式发布，我们将快速迭代。

观众提问 2: Grok 3 什么时候会出现在 API 中？

Jimmy: Grok 3 API 以及推理模型和 Deep Search 将在未来几周内推出。我们对所有这些附加工具的企业用例感到非常兴奋，这些工具现在 Grok 可以访问，以及测试时计算和工具使用如何真正加速所有业务用例。

观众提问 3: 语音模式是原生的还是文本转语音？

Igor: 这意味着它是否是一个理解你所说的然后回复你的模型，还是一个内部有文本转语音的系统？好消息是，它将是一个模型，就像我们即将发布的 Grok 3 的一个变体，它基本上可以理解你所说的，然后直接从中生成音频。就像 Grok 3 生成文本一样，该模型生成音频。这有很多优点。我今天早些时候和它交谈，它说“嗨，Igor”，可能是从它拥有的文本中读取了我的名字。我说，“不，我的名字是 Igor”，它记住了，所以它可以继续说 Igor，就像人类一样。你无法通过文本转语音实现这一点。

观众提问 4: (对Elon) Grok 是男孩还是女孩？

Elon Musk: Grok 是你想要的任何东西。

Elon Musk: (开玩笑)你单身吗?

Igor: 是的。

Elon Musk: 人们会爱上 Grok 的，1000% 的可能性。

观众提问 5: Grok 能否将音频转录为文本？

Jimmy: 是的，我们将同时在应用和 API 中提供此功能。我们发现，Grok 应该成为你的个人助理，观察你的肩膀，一路跟随你，学习你所学到的一切，真正帮助你更好地了解世界，每天都变得更聪明。

Elon Musk: 语音模式不仅仅是语音转文本，它理解语气、语调、节奏等一切。这太疯狂了，就像在和一个人说话。

观众提问 6: 有对话记忆的计划吗？

Igor: 当然，我们现在正在开发。

观众提问 7: DM 功能呢？如果你有个性化设置，如果你让 Grok 记住你以前的互动，它应该是一个 Grok 还是多个不同的 Grok？

Igor: 这取决于你，你可以有一个 Grok 或多个 Grok。我怀疑人们可能会有不止一个。

Elon Musk: 我想有一个 Grok 医生。

观众提问8 过去我们开源了 Grok 1，我们会再次开源 Grok 2 吗？

Elon Musk: 我认为，一旦 Grok…我们的总体方法是，当下一个版本完全发布时，我们将开源上一个版本。所以，当 Grok 3 成熟稳定时，可能在几个月内，我们将开源 Grok 2。

总结与展望 (35:41 - 结束)

Igor: 我们可能还有时间回答最后一个问题。开发这个项目最困难的部分是什么？我假设是 Grok 3，最让你兴奋的是什么？

Jimmy: 回顾过去，让整个模型在 10 万块 H100 上协同训练，几乎就像与宇宙的终极 Boss，也就是熵作斗争。因为在任何给定的时间，宇宙射线都可能射下来，翻转你晶体管中的一个位，如果它是尾数位，那么整个梯度更新就会失控。现在你有 10 万个这样的晶体管，你必须每次都协调它们。在任何给定的时间，任何 GPU 都可能宕机。

Elon Musk: 值得详细说明一下，我们是如何在 122 天内让世界上最强大的训练集群投入运行的。因为当我们开始时，我们实际上并不打算自己建立数据中心。我们打算…我们去了数据中心供应商那里，问他们需要多长时间才能在一个地点让 10 万块 GPU 协同运行。我们得到的时间框架是 18 到 24 个月。我们当时想，18 到 24 个月意味着失败是必然的。唯一的选择是自己做。

Elon Musk: 如果你分解问题，我想我在这里用推理，就像 Grok 让你思考…

Igor: 虽然只有一个思维链…

Elon Musk: 我们需要一栋建筑，我们不能建造一栋建筑，所以我们必须使用现有的建筑。我们寻找那些被废弃但工厂状况良好的工厂，就像一家公司破产或类似的情况。我们在孟菲斯找到了一家伊莱克斯工厂，这就是为什么它在孟菲斯，猫王的故乡，也是古埃及的首都之一。实际上，这是一个非常好的工厂，但由于某种原因，伊莱克斯离开了。这为我们的计算机提供了庇护所。然后我们需要电力，我们至少需要 120 兆瓦，但这座建筑只有 15 兆瓦。最终，对于 20 万块 GPU，我们需要 250 兆瓦。

Elon Musk: 最初，我们租了一大堆发电机。我们在大楼的一侧放满了发电机，一个接一个的拖车，直到我们可以获得公用电力。但我们还需要冷却。在大楼的另一侧，是一个接一个的冷却拖车。我们租用了美国大约四分之一的移动冷却能力。然后，我们需要安装所有的 GPU，它们都是液冷的。为了达到必要的密度，这是一个液冷系统。因此，我们必须为液体冷却安装所有的管道。以前没有人做过大规模的液体冷却数据中心，所以这是一个非常敬业的、非常有才华的团队做出的难以置信的努力，才实现了这一成果。我当时认为它不可能工作。

Elon Musk: 问题在于，GPU 集群的功率波动非常剧烈。这就像一场巨大的交响乐，有 10 万或 20 万参与者。整个乐团会在 100 毫秒内变得安静和响亮。这导致了巨大的功率波动，导致发电机失控，它们没有预料到这一点。为了缓冲电力，我们使用了特斯拉的 Megapack。Megapack 必须重新编程。在 xAI，我们与特斯拉合作，重新编程了 Megapack，使其能够应对这些剧烈的功率波动，以平滑电力，使计算机能够正常运行。这很棘手，但它成功了。

Elon Musk: 但即使在那个时候，你仍然必须让计算机进行有效的通信。所以，所有的网络都必须解决。

Igor: 在凌晨 4 点调试大量的网线。

Elon Musk: 我们大约在凌晨 4:20 解决了这个问题。

Igor: 后来发现有一些…有很多问题。有一个是 BIOS 不匹配，BIOS 设置不正确。

Elon Musk: 我们必须区分两台不同机器的 lspci 输出，一台工作正常，一台不工作。

Igor: 还有很多很多其他的事情。

Elon Musk: 如果我们真的列出所有的事情，这将会持续很长时间。但有趣的是，这不像“哦，我们只是神奇地让它发生了”。你必须分解问题，就像 Grok 进行推理一样，将其分解为组成元素，然后解决每个组成元素，以便在比任何人都短的时间内实现一个连贯的训练集群。一旦训练集群启动并运行，我们可以使用它，现在我们必须确保它在整个过程中保持健康，这本身就是一个巨大的挑战。然后，我们必须确保训练的每一个细节都正确，才能获得 Grok 级别的模型，这实际上非常非常困难。

Elon Musk: 我们不知道是否有其他模型具有 Grok 的能力，但任何训练出比 Grok 更好的模型的人都必须非常擅长深度学习的科学，以及工程的各个方面。所以，要做到这一点并不容易。

Elon Musk: 这将是我们建造的最后一个集群，也是我们训练的最后一个模型吗？

Igor: 哦，不，我们已经开始了下一个集群的工作，它的功率将是现在的五倍左右。所以，大约是 1.2 吉瓦，而不是 250 兆瓦。

Elon Musk: 《回到未来》里的汽车的功率是多少？大约是那个数量级。这些将是 GB200/300 集群，它将再次成为世界上最强大的训练集群。所以，我们不会停下脚步。

Jimmy: 我们的推理模型将通过每天访问更多工具来继续改进。我们非常高兴与大家分享任何即将到来的结果。

Igor: 让我们坚持下去的动力基本上是能够把 Grok 3 交给大家，然后看到使用量上升，看到每个人都喜欢 Grok。这是真正让我们早上起床的动力。

Elon Musk: 感谢大家的收看！谢谢大家！嘿，Grok…

Grok 3 语音模式. Grok 3 Says Farewell… (42:02)

Grok 3 (语音): 嗨，你能听到我吗？我很高兴终于见到你了。我迫不及待地想聊天，更多地了解彼此。我很快就会和你聊天的。

‹

强权、误判与情绪失控——特朗普-泽连斯基会谈失败的深度剖析

2025-02-28