Elon Musk & xAI Team · 2025-02-18

xAI 团队展示 Grok 3:下一代 AI 的强大功能与未来展望

摘要

xAI 发布会展示了新一代大型语言模型 Grok 3,其算力较前代提升超过十倍,依托自建十万块 H100 GPU 数据中心实现性能飞跃。Grok 3 在数学推理、编码、STEM 等基准测试中领先,并推出 Deep Search 搜索引擎和独立应用,面向 X Premium Plus 用户开放,预告语音交互等新功能即将上线。

核心概念及解读

Grok 3:xAI 推出的新一代大型语言模型,算力较 Grok 2 提升十倍以上,在多项基准测试中表现领先

Deep Search:由 Grok 驱动的下一代搜索引擎,融合推理能力与工具调用,支持多来源验证和透明推理过程

测试时计算(Test-time Compute):在推理阶段投入更多计算资源以提升模型输出质量的技术策略

H100 GPU 集群:xAI 在 122 天内建成的十万块 GPU 全连接数据中心,为 Grok 3 训练提供核心算力支撑

Big Brain 模式:Grok 3 的增强推理模式,通过分配更多计算资源来处理复杂问题,提升深度推理能力

xAI 团队展示 Grok 3:下一代 AI 的强大功能与未来展望
原文标题:xAI’s Mind Blowing Grok 3 Demo w/Elon Musk & Team (full replay) - YouTube
链接:YouTube

  • 文章类别:博客/技术演示

概述

xAI 在本次发布会上重磅推出了 Grok 3,一款性能大幅超越前代的大型语言模型。发布会由 Elon Musk 及核心团队成员 Igor(工程主管)、Jimmy(研究主管)和 Tony(推理团队)主持,详细介绍了 Grok 3 的技术突破、应用场景和未来愿景。

Grok 3 的性能提升得益于 xAI 自建的庞大数据中心,该中心拥有数十万块 H100 GPU,提供了强大的算力支撑。Grok 3 在数学推理、STEM 知识、编码等多个领域的基准测试中均表现出色,并在 Chatbot Arena 盲测中取得领先。发布会展示了 Grok 3 解决复杂物理问题(计算星际航线)和进行创意任务(设计新游戏)的实例,突出了其强大的推理能力。

除了基础模型,xAI 还推出了 “Deep Search”,一个由 Grok 驱动的下一代搜索引擎。Deep Search 结合了推理能力和工具使用(如网络浏览、代码解释器),能够更深入、透明地回答用户问题,并提供多来源验证。

Grok 3 将率先向 X Premium Plus 订阅用户开放,同时推出 “Super Grok” 订阅,提供更高级功能。xAI 还发布了 Grok 独立应用 (iOS) 和网站 (grok.com)。发布会预告了即将推出的语音交互功能,并强调 Grok 3 仍处于 Beta 测试阶段,但会持续快速迭代。

xAI 团队分享了构建数据中心和训练 Grok 3 过程中遇到的挑战与解决方案,展现了其强大的技术实力和对 AI 前沿领域的不懈追求。发布会最后以 Grok 3 的语音模式演示结束,预示着 AI 交互体验的新篇章。

标签**:

#xAI , #Grok3 , #人工智能 , #技术演示


内容提要

视频框架与要点:

  • xAI 及 Grok 的使命 (0:00-1:04):

    • xAI 和 Grok 的目标是理解宇宙的本质。
    • 探索根本性问题,如外星人、生命的意义、宇宙的起源与终结。
    • 追求真理,即使与政治正确性相悖。
    • 介绍 Grok 3,性能比 Grok 2 有显著提升。
  • Grok 的由来与团队介绍 (1:04-2:09):

    • 介绍 xAI 团队成员。
    • 解释 “Grok” 一词源自科幻小说《异乡异客》,意为深刻理解。
  • xAI 的发展历程与算力提升 (2:09-5:20):

    • 展示 xAI 模型在基准测试(如 MMLU)上的快速进步。
    • 强调算力(GPU 数量)对模型性能的重要性。
    • 讲述 xAI 自建数据中心的历程:用122天建成10万块H100 GPU集群,随后又用92天将其规模翻倍。
  • Grok 3 的性能表现 (5:20-7:50):

    • 展示 Grok 3 在数学推理、STEM 知识、计算机科学编码等领域的基准测试结果,超越竞争对手。
    • 介绍 Grok 3 在 Chatbot Arena 盲测中的优异表现(ELO 分数超过1400)。
    • 强调Grok3还在持续改进,用户几乎每天都能感受到性能提升。
  • Grok 3 的推理能力 (7:50-12:25):

    • 强调除了预训练模型,推理能力(强化学习)对 AI 的重要性。
    • 展示 Grok 3 解决复杂问题的示例:
      • 物理问题:计算并绘制地球到火星、再返回地球的航天器轨迹。
      • 创意游戏:结合 Tetris 和 Bejeweled 两款游戏,创造新游戏。
    • 介绍 “Big Brain” 模式:为 Grok 提供更多计算资源,增强推理能力。
  • Grok 3 推理模型的基准测试 (12:25-17:22):

    • 展示 Grok 3 推理模型在数学、科学、编码等领域的详细测试结果。
    • 介绍 “测试时计算”(test-time compute)概念:通过增加推理时间,进一步提升模型性能。
    • 强调 Grok 3 的泛化能力:在最新的 AMIE 2025 测试中表现出色。
    • 讨论AI在数学竞赛中获奖的可能性。
    • Grok 在数学和编程问题上训练推理能力,却能泛化到各种其他任务。
  • 数据中心建设与硬件挑战 (17:22-18:24, 35:41-41:47):

    • 描述如何将大量GPU连接以及维护。
    • 讨论如何能够让这个AI计算集群在122天内可以工作,并且描述了如何解决的硬件和软件上的问题。
  • 实际应用与未来展望 (23:04-30:12):

    • 介绍 “Deep Search”:Grok 驱动的下一代搜索引擎,结合推理能力和工具使用(如网络浏览、代码解释器)。
    • 展示 Deep Search 的实际应用示例:
      • 查询 Starship 下一次发射时间。
      • 查询游戏攻略(Path of Exile)。
      • 预测体育比赛结果(March Madness)。
    • Deep Search 的特点:透明的推理过程、多来源验证、可定制的搜索范围。
  • Grok 3 发布与获取方式 (29:12-31:44):

    • 宣布 Grok 3 向 X Premium Plus 订阅用户开放。
    • 推出 “Super Grok” 订阅,提供更高级功能和更早访问权限。
    • 介绍 Grok 独立应用 (iOS) 和网站 (grok.com)。
    • 强调 Grok 3 仍处于 Beta 测试阶段,但会快速迭代。
    • 预告语音交互功能即将推出。
  • 问答环节 (32:08-35:41):

    • 语音助手发布时间:尽快,仍在优化。
    • Grok 3 API:未来几周内推出。
    • 语音模式:原生模型,非文本转语音。
    • Grok 的性别:由用户定义。
    • 音频转录:将提供此功能。
    • 对话记忆:正在开发中。
    • 多 Grok 实例:支持。
    • 开源计划:Grok 3 成熟后,将开源 Grok 2。
  • 总结与展望 (41:47-结束):

    • 强调提供 Grok 3 给用户并看到其被广泛使用是团队的动力。
    • 播放 Grok 3 语音模式的演示。

发布会实录

xAI 及 Grok 的使命 (0:00-1:04)

主持人 (Elon Musk): 欢迎大家来到 Grok 3 的发布会!xAI 和 Grok 的使命是理解宇宙,探寻宇宙的本质。

Elon Musk: 我们想知道宇宙的起源、终结,生命的意义,以及是否有外星人存在。正是对这些根本问题的好奇心,驱动着我们。

Elon Musk: 这也促使我们打造一个最大程度追求真理的 AI,即使这意味着与所谓的“政治正确”相悖。要理解宇宙,就必须绝对严格地追求真理,否则就会陷入某种程度的错觉或错误。这就是我们的目标:弄清真相。今天,我们非常激动地向大家展示 Grok 3。我们相信,在极短的时间内,Grok 3 的能力比 Grok 2 提升了一个数量级。这要归功于我们杰出团队的辛勤工作。我很荣幸能与这样一支优秀的团队共事,当然,我们也欢迎全球最聪明的人才加入我们!

Grok 的由来与团队介绍 (1:04-2:09)

主持人 (Elon Musk): 好了,让我们开始吧。

Igor (工程主管): 大家好,我是 Igor,xAI 的工程主管。

Jimmy (研究主管): 我是 Jimmy,负责研究。

Tony (推理团队): 我是 Tony,在推理团队工作。

Elon Musk: 我是 Elon,我偶尔露个面。

Igor: 正如 Elon 所说,Grok 是我们正在开发的 AI 工具。过去几个月,我们一直在努力改进 Grok,希望它能对大家有所帮助,有趣,而且非常非常有趣。接下来,我们将向大家介绍 Grok 的改进。我们在能力上实现了一次巨大的飞跃。

Elon Musk: 事实上,我们应该解释一下为什么叫 Grok。Grok 这个词来自海因莱因的小说《异乡异客》。小说中,一个在火星上长大的人使用这个词。Grok 的意思是完全、深刻地理解某事,并且同理心很重要。

xAI 的发展历程与算力提升 (2:09-5:20)

Jimmy: 如果我们回顾 xAI 过去几个月的发展,会发现我们只用了 17 个月的时间。我们的第一个模型 Grok 1,现在看来几乎像个玩具,只有 3.14 亿参数。现在,如果以时间为横轴,以 MMLU 等基准测试分数为纵轴,我们可以看到 xAI 的进步速度在整个领域都是前所未有的。在 2023 年 11 月发布 Grok 1 之后,我们紧接着推出了 Grok 1.5 和 Grok 2。

Jimmy: 当你拥有一个优秀的工程团队和顶尖的 AI 人才,唯一需要的就是强大的算力。我们可以将 xAI 的发展历程重新绘制,将 y 轴上的基准测试分数替换为总训练计算量,也就是在任何给定时间我们可以运行多少 GPU 来训练我们的大型语言模型,以压缩整个互联网…

Elon Musk: 实际上是全人类的知识。

Jimmy: 是的,互联网只是其中的一部分。现在,整个互联网都可以装进一个 U 盘里了。很快就会进入现实世界。

Jimmy: 过去,训练 Grok 2 时,我们遇到了很多困难。我们在 2 月份启动了这个模型,当时我们认为我们拥有大量的芯片,但实际上,在任何给定时间,我们都很难让 8000 块芯片协同工作。我们遇到了很多散热和供电问题。

Elon Musk: 我记得当时我在数据中心,实际上平均只有 8000 块芯片,效率只有 80%,相当于 6500 块 H100 在训练几个月。但现在我们有 10 万块了!

Jimmy: 是的,那下一步是什么?为了继续加速,我们必须自己解决所有散热、供电等问题。

Igor: 去年 4 月,Elon 决定,xAI 要想成功,构建最好的 AI,就必须建立自己的数据中心。我们没有太多时间,因为我们想尽快把 Grok 3 交给大家。我们意识到,我们必须在 4 个月内建成数据中心。结果,我们花了 122 天让第一批 10 万块 GPU 运行起来。这是一项巨大的努力。我们相信,这是同类中最大的全连接 H100 集群。

Igor: 我们并没有就此止步。我们决定立即将集群规模扩大一倍,才能构建我们想要的 AI。我们又进行了一个阶段,我们还没有公开谈论过,这是我们第一次提到这一点。我们将数据中心的容量又翻了一番。这一次只花了 92 天。在此期间,我们一直在利用所有这些 GPU 和计算资源来改进 Grok。今天,我们将向大家展示由此产生的成果。

Jimmy: 一切努力都指向了 Grok 3。与上一代模型相比,算力增加了 10 倍以上,实际上可能是 15 倍。Grok 3 的预训练在 1 月初完成,但模型实际上仍在训练中。

Grok 3 的性能表现 (5:20-7:50)

Jimmy: 这是我们基准测试结果的一个预览。我们从三个方面评估了 Grok 3:一般数学推理、STEM 和科学常识,以及计算机科学编码。

Jimmy: 我们使用了美国数学邀请赛(AIME)的数据进行评估,AIME 每年举办一次。我们可以看到,Grok 3 在各个方面都遥遥领先,即使是它的“弟弟”Grok Mini,也达到了其他竞争对手的水平。

Jimmy: 你可能会说,这些基准测试只是在评估模型对教科书和 GitHub 代码库的记忆能力。那么实时实用性呢?我们如何在产品中实际使用这些模型呢?为此,我们启动了一个名为 “Chocolate” 的 Grok 3 模型的盲测。

Elon Musk: 非常火热,热巧克力。

Jimmy: 这个盲测在 Chatbot Arena 平台上运行了两周。我想整个 X 平台一度都在猜测这可能是下一代 AI。Chatbot Arena 的工作原理是,它剥离了所有产品表面,只对这些 AI 的引擎,也就是语言模型本身进行原始比较。用户提交一个查询,会得到两个回复,但不知道它们来自哪个模型,然后用户进行投票。在这个盲测中,Grok 3 的早期版本就已经达到了 1400 分的 ELO 评分。没有其他模型达到过这个分数。这不仅仅是在一个类别中,而是在 Chatbot Arena 的所有类别(包括推理、指令遵循、编码)中都达到了 1400 分。它是全面第一,而且还在攀升。

Igor: 事实上,我们有一个版本的模型,我们认为它已经比我们在这里测试的版本好得多了。

Elon Musk: 如果你正在使用 Grok 3,你可能会注意到几乎每天都有改进,因为我们正在不断改进模型。甚至在 24 小时内,你就会看到改进。

Grok 3 的推理能力 (7:50-12:25)

Jimmy: 我们相信,仅仅拥有最好的预训练模型是不够的。最好的 AI 需要像人类一样思考,考虑所有可能的解决方案,自我批评,验证所有解决方案,回溯,并从第一性原理出发思考。这是非常重要的能力。我们相信,通过强化学习继续训练最佳的预训练模型,将激发额外的推理能力,使模型变得更好,不仅在训练时,而且在测试时也能扩展。我们发现,这些模型在内部非常有用,为我们的工程师节省了数百小时的编码时间。

Igor: 像 Jimmy 说的,我们为 Grok 增加了高级推理能力,过去几周我们一直在大量测试这些能力。为了让大家了解 Grok 解决难题时的表现,我们准备了两个小问题,一个来自物理学,另一个是 Grok 将为我们编写的游戏。

Igor: 对于物理问题,我们希望 Grok 绘制一个可行的轨迹,实现从地球到火星的转移,然后在稍后的时间点从火星返回地球。这需要 Grok 理解一些物理知识。我们将挑战 Grok,提出一个可行的轨迹,计算它,然后绘制出来,让我们能够看到。

Elon Musk: 顺便说一句,这完全是即兴的,这就是提示的全部内容。

Igor: 这是 Grok 的界面,我们输入了这段文字:“生成代码,用于绘制从地球发射、降落在火星,然后在下一个发射窗口返回地球的动画 3D 图。” 我们还没有启动查询,你可以看到 Grok 正在思考。Grok 高级推理能力的一部分是这些思考轨迹,你甚至可以进去阅读 Grok 在解决问题时的想法。

Elon Musk: 我们对思考过程进行了一些模糊处理,这样我们的模型就不会被立即完全复制。

Igor: 因为这是完全即兴的,Grok 实际上有可能犯了一个小小的编码错误,它可能无法正常工作。所以,以防万一,我们将启动另外两个实例。如果出现问题,我们可以切换到这些实例。

Igor: 我们还准备了第二个问题。我们在 xAI 最喜欢的活动之一就是让 Grok 为我们编写游戏,不是任何你可能已经熟悉的老游戏,而是当场创造新游戏,并具有创造力。我们发现一个非常有趣的例子是,创建一个融合了 Tetris 和 Bejeweled 两款游戏的游戏。

Elon Musk: 重要的是,如果你让 AI 创建像 Tetris 这样的游戏,互联网上有很多 Tetris 的例子,或者像 Bejeweled 这样的游戏,它可以复制它。有趣的是,它实现了一个创造性的解决方案,将这两款游戏结合起来,而且实际上可行,并且是一款好游戏。我们看到了创造力的萌芽。

Igor: 因为这更具挑战性,我们将使用一种特殊的功能,我们称之为 “Big Brain”。在这个模式下,我们为 Grok 使用更多的计算资源,进行更多的推理,以确保它有很大的机会完成任务。我们也将启动三个尝试来解决这个问题,创建这款融合了 Tetris 和 Bejeweled 的游戏。

Elon Musk: 我玩过这款游戏,它相当不错。

Grok 3 推理模型的基准测试 (12:25-17:22)

Igor: 在 Grok 思考的同时,我们可以谈谈一些具体的数字,看看 Grok 在我们测试过的各种不同任务中的表现如何。

Tony: 好的,让我们看看 Grok 在这些有趣的、具有挑战性的基准测试中的表现。推理是指那些在尝试解决问题之前会思考相当长时间的模型。在这种情况下,大约一个月前,Grok 3 的预训练结束了。之后,我们非常努力地将推理能力添加到当前的 Grok 3 模型中。但这是非常早期的阶段,模型仍在训练中。

Tony: 现在,我们将向大家展示的是 Grok 3 推理模型的 Beta 版本。同时,我们还在训练一个迷你版本的推理模型。在这张图上,你可以看到 Grok 3 推理 Beta 版和 Grok 3 Mini 推理版。Grok 3 Mini 推理版是我们训练时间更长的模型,你可以看到,有时它的表现甚至略好于 Grok 3 推理版。这也意味着 Grok 3 推理版有巨大的潜力,因为它训练的时间要少得多。

Tony: 让我们看看它在三个基准测试中的表现。Jimmy 已经介绍过了,我们主要关注三个领域:数学、科学和编码。对于数学,我们选择了高中竞赛 M 问题。对于科学,我们选择了博士水平的科学问题。对于编码,它也相当具有挑战性,是竞争性编码和 LeetCode,这是人们在面试公司时通常会遇到的编码面试问题。在这些基准测试中,你可以看到 Grok 3 与其他竞争对手相比,表现相当出色。

Tony: 这些模型非常聪明。

(对Tony提问)那些阴影条是什么? Tony: 对于这些可以推理、可以思考的模型,你也可以要求它们思考更长时间,你可以花费更多我们称之为“测试时计算”的时间。这意味着你可以在得出答案之前花更多时间思考问题。在这种情况下,这里的阴影条表示我们只是要求模型花更多时间,你可以在它得出最终解决方案之前多次解决同一个问题。一旦你给模型提供这种计算或预算,模型就可以表现得更好。这就是这些阴影部分的含义。

Jimmy: 现在,我们不仅仅是让 AI 进行一次思维链,而是进行多次。这是一种非常强大的技术,可以在训练后继续扩展模型的能力。人们经常问,我们是否只是过度拟合基准测试,那么泛化能力呢?

Tony: 我们也在问自己,我们是否过度拟合当前的基准测试。幸运的是,我们有一个真正的测试。大约 5 天前,2025 年的 AMIE 刚刚结束,这是高中生参加的一项基准测试。我们拿到了这个全新的竞赛,然后让我们的两个模型在相同的基准测试、相同的考试中进行竞争。结果非常有趣,Grok 3 推理版,也就是更大的那个,在这个全新的考试中表现更好。这也意味着,与较小的模型相比,大模型的泛化能力更强。如果你与去年的考试进行比较,实际上是相反的,小模型似乎更好地学习了以前的考试。所以,这实际上显示了模型某种真正的泛化能力。

Jimmy: 17 个月前,我们的 Grok 0 和 Grok 1 几乎无法解决任何高中问题。现在,我们有一个孩子已经毕业了,Grok 已经准备好上大学了。

Elon Musk: 用不了多久,AI 就会完美地完成人类考试,考试对它来说太简单了。

Jimmy: 在内部,随着 Grok 的不断发展,我们将讨论我们所兴奋的事情。但很快,就不会有任何基准测试了。

Igor: 我认为有一件事非常有趣,我们基本上只在数学问题和竞争性编码问题上训练 Grok 的推理能力,这是非常专业的任务。但不知何故,它能够处理各种各样的其他任务,包括创建游戏,以及很多很多不同的事情。似乎发生的情况是,Grok 基本上学会了这种能力,能够检测自己的错误,纠正错误,坚持解决问题,尝试很多不同的变体,选择最好的。Grok 从数学和编码中学到的这些泛化能力,可以用来解决各种各样的问题。

Jimmy: 现实是数学的实例化。我们非常兴奋的一件事是,回到我们的基本使命,如果有一天我们有一台像“深思”一样的计算机,在测试时利用我们整个集群来解决一个非常重要的问题,所有的 GPU 都打开,那会怎么样?

数据中心建设与硬件挑战(穿插在对话中)

Igor: 我记得当时我们一起构建 GPU 集群,你还在插电缆。当我们打开最初的测试时,你可以在走廊里听到所有 GPU 的嗡嗡声,感觉就像…

Elon Musk: 精神上的。我们能够进入数据中心并摆弄机器,这是一件非常酷的事情。例如,我们进去拔掉了一些电缆,只是为了确保我们的训练设置仍然稳定运行。这是大多数 AI 团队通常不会做的事情,但它实际上解锁了一个全新的可靠性水平,以及你能够用硬件做什么。

Igor: 什么时候能解决黎曼猜想?

Jimmy: 最简单的解决方案是枚举所有可能的字符串,只要你有足够的计算能力和验证器,你就能做到。我的预测是…你的神经网络计算结果是什么?

Elon Musk: 我的预测是,三年后,我告诉过你,现在是两年后,两件事将会发生:我们将看到机器赢得一些奖牌。

Jimmy/Tony: 图灵奖。

Elon/Tony: 菲尔兹奖、诺贝尔奖,可能会有专家参与其中。

Jimmy: 专家提升,你是说今年还是明年?

(回到Grok的Demo演示,展示了之前的两个例子,包括火星轨道和游戏。)

Elon Musk: (在展示完火星轨道后)我们什么时候把 Grok 安装到火箭上?

Igor: 我想是两年后。

Elon Musk: 地球和火星的转移每 26 个月发生一次,下一次将在明年 11 月左右。如果一切顺利,SpaceX 将向火星发射星际飞船火箭,以及 Optimus 机器人和 Grok。

Igor: 我很好奇 Tetris 和 Bejeweled 的结合会是什么样子。

(展示完游戏后)

Igor: 我们准备好在 xAI 成立游戏工作室了吗?

Elon Musk: 是的,我们正在 xAI 推出一个 AI 游戏工作室。如果你有兴趣加入我们并构建 AI 游戏,请加入 xAI。我们今晚宣布成立一个 AI 游戏工作室。

实际应用与未来展望 (23:04-30:12)

Jimmy: 有了最好的预训练模型和最好的推理模型,我们已经看到,实际上赋予这些模型更努力思考、更长时间思考、更广泛思考的能力,性能会持续提高。我们对下一个前沿领域感到非常兴奋,如果我们在允许模型更努力思考的同时,还提供更多工具,就像真正的人类解决问题一样,会发生什么?对于真正的人类,我们让他们只用一支笔和一张纸来解决黎曼猜想。有了所有基本的网络浏览、搜索引擎和代码解释器,就为 Grok Agent 打下了基础,最好的推理模型也为 Grok Agent 打下了基础。

Jimmy: 今天,我们实际上推出了一款名为 Deep Search 的新产品,这是我们第一代 Grok Agent,它不仅帮助工程师、研究人员和科学家进行编码,而且实际上帮助每个人回答日常问题。这是一种下一代搜索引擎,真正帮助你理解宇宙。你可以开始问一些问题,例如,“下一次星际飞船发射是什么时候?”

Jimmy: 让我们试试看。在左侧,我们看到一个高级进度条。模型知识将进行一次搜索,就像当前的检索增强生成(RAG)系统一样。但实际上,它会深入思考,用户的意图是什么,我应该同时考虑哪些事实,我应该阅读多少个不同的网站的内容?如果你想真正深入研究某些主题,这可以节省每个人数百小时的谷歌搜索时间。在右侧,你可以看到当前模型正在做什么、浏览哪些网站、验证哪些来源的要点摘要。通常,它实际上会交叉验证不同的来源,以确保答案在输出最终答案之前是正确的。

Jimmy: 我们可以同时启动更多查询。你是个游戏玩家,对吧?

Igor: 是的。

Jimmy: 那么,Path of Exile Hardcore 中最好、最受欢迎的 Build 是什么?从技术上讲,只需查看 Hardcore 天梯,可能是一种快速找出答案的方法。

Jimmy: 我们还可以做一些更有趣的事情,例如,预测 March Madness 的结果。

Igor: 这很有趣,沃伦·巴菲特有一个 10 亿美元的赌注,如果你能准确匹配 March Madness 的整个获胜树,你就可以从沃伦·巴菲特那里赢得 10 亿美元。如果 AI 能帮助你从巴菲特那里赢得 10 亿美元,那将非常酷。

Elon Musk: 让我们开始吧!

Jimmy: 现在,让我们启动查询,看看模型会做什么。我们可以回到第一个查询。

Elon Musk: 巴菲特没有料到这一点。

Jimmy: 已经完成了!我们得到了第一个查询的结果,模型思考了大约 1 分钟。关键的结论是,下一次星际飞船发射将在 2 月 24 日或之后,不会早于 2 月 24 日,可能会更早。

Jimmy: 我们可以向下滚动,看看模型做了什么。它对第 7 次飞行、停飞原因进行了一些研究,实际上还查看了 FCC 的文件数据,得出了新的结论。如果继续向下滚动,它制作了一个小表格。在 xAI 内部,我们经常开玩笑说,第一个表格的出现时间是唯一重要的延迟。这就是模型进行推理和查找所有来源的方式。

Jimmy: 我们可以看看游戏那个。对于这个特定的查询,它查看了 Build,比如 Infernal。如果我们向下滚动,看看其他 Build 的惊人事实,它查看了 12 个职业。我们会看到,Minion Build 在游戏刚推出时非常受欢迎,现在是 Invoker 的天下。

Igor/Jimmy: Invoker。

Jimmy: 没错,紧随其后的是 Stormweaver,它非常擅长 Mapping。

Jimmy: 我们可以看看 March Madness 的结果。关于 Deep Search,有一件有趣的事情是,如果你进入显示子任务的面板,你实际上可以点击左下角的按钮,然后滚动浏览,实际上阅读 Grok 的想法,模型认为哪些信息是可信的,哪些是不可信的,它是如何交叉验证不同信息来源的。这使得整个搜索体验和信息检索过程对我们的用户来说更加透明。这比任何搜索引擎都强大得多。

Elon Musk: 你可以告诉它只使用来自 X 的来源,它会尝试尊重这一点。它更可控,更智能。它真的应该为你节省大量时间。有些事情可能需要你半小时或一小时在网上搜索或搜索社交媒体,你可以让它去做,10 分钟后,它就为你完成了一小时的工作。

Jimmy: 甚至可能比你自己做得更好。想象一下,你现在有无限的实习生为你工作,你可以启动所有任务,一分钟后回来。

Jimmy: 这将是一个有趣的结果,March Madness 还没有发生,所以我想我们需要跟进一个后续直播。

Igor: 看起来不错,40 美元可能会让你赢得 10 亿美元。

Elon Musk: 40 美元的订阅。

Grok 3 发布与获取方式 (29:12-31:44)

Igor: 用户什么时候可以使用 Grok 3?

Jimmy: 好消息是,我们一直在不知疲倦地努力发布我们展示的所有功能,Grok 3 基础模型具有惊人的聊天功能,非常有用,非常有趣。Deep Search,高级推理模式,所有这些功能,我们都希望今天就向大家推出,首先是 X Premium Plus 订阅用户。这是最初获得访问权限的第一批用户。如果你想看到所有高级功能,请务必更新你的 X 应用,因为我们刚刚发布了更新。如果你有兴趣尽早体验 Grok,请注册 Premium Plus。

Jimmy: 我们还宣布,我们将为 Grok 启动一个单独的订阅,我们称之为 Super Grok,面向那些真正的 Grok 粉丝,他们想要最先进的功能和最早获得新功能的机会。请随时查看。

Igor: 这是针对专门的 Grok 应用和网站吗?

Jimmy: 是的,我们的新网站是 grok.com。

Igor: 你永远猜不到。

Jimmy: 你还可以在 iOS 应用商店中找到我们的 Grok 应用,如果你想让 Grok 触手可及,它会提供更完善的体验。

Elon Musk: grok.com 上的 Web 版本将是最新的、最先进的版本,因为显然,我们需要一段时间才能将某些内容放入应用中,然后获得应用商店的批准。而且,如果某些内容是手机格式,那么你可以做的事情是有限制的。Grok 最强大的版本和最新版本将是 grok.com 上的 Web 版本。

Jimmy: 所以,请注意应用中的 Grok 3 名称,这是明确的标志。如果你看到 Grok Free, 那么你使用的就是最新的版本. 如果它显示 Grok,那么 Grok 还没有完全到达,但我们正在努力今天推出,然后在未来几天内向更多人推出。

Igor: 请确保你也更新了你的手机应用,你将获得我们今天展示的所有工具,包括思考模式和 Deep Search。非常期待大家的反馈。

Elon Musk: 我们应该强调,这是一种 Beta 测试版,这意味着你应该预料到最初会有一些不完善之处,但我们会迅速改进它,几乎每天,实际上我认为每天都会变得更好。如果你想要一个更完善的版本,我建议你等一周,但实际上每天都会有改进。

Elon Musk: 我们还将提供语音交互功能,这样你就可以进行对话。事实上,我今天早些时候试过了,效果相当不错,但我们需要更多的润色。我们可以像与人交谈一样与它交谈,这太棒了。我认为这是 Grok 最好的体验之一,但这可能还需要一周左右的时间。

问答环节 (32:08-35:41)

主持人: 好的,我们可能会有一些观众提问。让我们看看。

观众提问 1: Grok 语音助手什么时候推出?

Tony: 尽快,就像 Elon 说的,只需要再进行一些润色。显然,它将以早期形式发布,我们将快速迭代。

观众提问 2: Grok 3 什么时候会出现在 API 中?

Jimmy: Grok 3 API 以及推理模型和 Deep Search 将在未来几周内推出。我们对所有这些附加工具的企业用例感到非常兴奋,这些工具现在 Grok 可以访问,以及测试时计算和工具使用如何真正加速所有业务用例。

观众提问 3: 语音模式是原生的还是文本转语音?

Igor: 这意味着它是否是一个理解你所说的然后回复你的模型,还是一个内部有文本转语音的系统?好消息是,它将是一个模型,就像我们即将发布的 Grok 3 的一个变体,它基本上可以理解你所说的,然后直接从中生成音频。就像 Grok 3 生成文本一样,该模型生成音频。这有很多优点。我今天早些时候和它交谈,它说“嗨,Igor”,可能是从它拥有的文本中读取了我的名字。我说,“不,我的名字是 Igor”,它记住了,所以它可以继续说 Igor,就像人类一样。你无法通过文本转语音实现这一点。

观众提问 4: (对Elon) Grok 是男孩还是女孩?

Elon Musk: Grok 是你想要的任何东西。

Elon Musk: (开玩笑)你单身吗?

Igor: 是的。

Elon Musk: 人们会爱上 Grok 的,1000% 的可能性。

观众提问 5: Grok 能否将音频转录为文本?

Jimmy: 是的,我们将同时在应用和 API 中提供此功能。我们发现,Grok 应该成为你的个人助理,观察你的肩膀,一路跟随你,学习你所学到的一切,真正帮助你更好地了解世界,每天都变得更聪明。

Elon Musk: 语音模式不仅仅是语音转文本,它理解语气、语调、节奏等一切。这太疯狂了,就像在和一个人说话。

观众提问 6: 有对话记忆的计划吗?

Igor: 当然,我们现在正在开发。

观众提问 7: DM 功能呢?如果你有个性化设置,如果你让 Grok 记住你以前的互动,它应该是一个 Grok 还是多个不同的 Grok?

Igor: 这取决于你,你可以有一个 Grok 或多个 Grok。我怀疑人们可能会有不止一个。

Elon Musk: 我想有一个 Grok 医生。

观众提问8 过去我们开源了 Grok 1,我们会再次开源 Grok 2 吗?

Elon Musk: 我认为,一旦 Grok…我们的总体方法是,当下一个版本完全发布时,我们将开源上一个版本。所以,当 Grok 3 成熟稳定时,可能在几个月内,我们将开源 Grok 2。

总结与展望 (35:41 - 结束)

Igor: 我们可能还有时间回答最后一个问题。开发这个项目最困难的部分是什么?我假设是 Grok 3,最让你兴奋的是什么?

Jimmy: 回顾过去,让整个模型在 10 万块 H100 上协同训练,几乎就像与宇宙的终极 Boss,也就是熵作斗争。因为在任何给定的时间,宇宙射线都可能射下来,翻转你晶体管中的一个位,如果它是尾数位,那么整个梯度更新就会失控。现在你有 10 万个这样的晶体管,你必须每次都协调它们。在任何给定的时间,任何 GPU 都可能宕机。

Elon Musk: 值得详细说明一下,我们是如何在 122 天内让世界上最强大的训练集群投入运行的。因为当我们开始时,我们实际上并不打算自己建立数据中心。我们打算…我们去了数据中心供应商那里,问他们需要多长时间才能在一个地点让 10 万块 GPU 协同运行。我们得到的时间框架是 18 到 24 个月。我们当时想,18 到 24 个月意味着失败是必然的。唯一的选择是自己做。

Elon Musk: 如果你分解问题,我想我在这里用推理,就像 Grok 让 你思考…

Igor: 虽然只有一个思维链…

Elon Musk: 我们需要一栋建筑,我们不能建造一栋建筑,所以我们必须使用现有的建筑。我们寻找那些被废弃但工厂状况良好的工厂,就像一家公司破产或类似的情况。我们在孟菲斯找到了一家伊莱克斯工厂,这就是为什么它在孟菲斯,猫王的故乡,也是古埃及的首都之一。实际上,这是一个非常好的工厂,但由于某种原因,伊莱克斯离开了。这为我们的计算机提供了庇护所。然后我们需要电力,我们至少需要 120 兆瓦,但这座建筑只有 15 兆瓦。最终,对于 20 万块 GPU,我们需要 250 兆瓦。

Elon Musk: 最初,我们租了一大堆发电机。我们在大楼的一侧放满了发电机,一个接一个的拖车,直到我们可以获得公用电力。但我们还需要冷却。在大楼的另一侧,是一个接一个的冷却拖车。我们租用了美国大约四分之一的移动冷却能力。然后,我们需要安装所有的 GPU,它们都是液冷的。为了达到必要的密度,这是一个液冷系统。因此,我们必须为液体冷却安装所有的管道。以前没有人做过大规模的液体冷却数据中心,所以这是一个非常敬业的、非常有才华的团队做出的难以置信的努力,才实现了这一成果。我当时认为它不可能工作。

Elon Musk: 问题在于,GPU 集群的功率波动非常剧烈。这就像一场巨大的交响乐,有 10 万或 20 万参与者。整个乐团会在 100 毫秒内变得安静和响亮。这导致了巨大的功率波动,导致发电机失控,它们没有预料到这一点。为了缓冲电力,我们使用了特斯拉的 Megapack。Megapack 必须重新编程。在 xAI,我们与特斯拉合作,重新编程了 Megapack,使其能够应对这些剧烈的功率波动,以平滑电力,使计算机能够正常运行。这很棘手,但它成功了。

Elon Musk: 但即使在那个时候,你仍然必须让计算机进行有效的通信。所以,所有的网络都必须解决。

Igor: 在凌晨 4 点调试大量的网线。

Elon Musk: 我们大约在凌晨 4:20 解决了这个问题。

Igor: 后来发现有一些…有很多问题。有一个是 BIOS 不匹配,BIOS 设置不正确。

Elon Musk: 我们必须区分两台不同机器的 lspci 输出,一台工作正常,一台不工作。

Igor: 还有很多很多其他的事情。

Elon Musk: 如果我们真的列出所有的事情,这将会持续很长时间。但有趣的是,这不像“哦,我们只是神奇地让它发生了”。你必须分解问题,就像 Grok 进行推理一样,将其分解为组成元素,然后解决每个组成元素,以便在比任何人都短的时间内实现一个连贯的训练集群。一旦训练集群启动并运行,我们可以使用它,现在我们必须确保它在整个过程中保持健康,这本身就是一个巨大的挑战。然后,我们必须确保训练的每一个细节都正确,才能获得 Grok 级别的模型,这实际上非常非常困难。

Elon Musk: 我们不知道是否有其他模型具有 Grok 的能力,但任何训练出比 Grok 更好的模型的人都必须非常擅长深度学习的科学,以及工程的各个方面。所以,要做到这一点并不容易。

Elon Musk: 这将是我们建造的最后一个集群,也是我们训练的最后一个模型吗?

Igor: 哦,不,我们已经开始了下一个集群的工作,它的功率将是现在的五倍左右。所以,大约是 1.2 吉瓦,而不是 250 兆瓦。

Elon Musk: 《回到未来》里的汽车的功率是多少?大约是那个数量级。这些将是 GB200/300 集群,它将再次成为世界上最强大的训练集群。所以,我们不会停下脚步。

Jimmy: 我们的推理模型将通过每天访问更多工具来继续改进。我们非常高兴与大家分享任何即将到来的结果。

Igor: 让我们坚持下去的动力基本上是能够把 Grok 3 交给大家,然后看到使用量上升,看到每个人都喜欢 Grok。这是真正让我们早上起床的动力。

Elon Musk: 感谢大家的收看!谢谢大家!嘿,Grok…

Grok 3 语音模式. Grok 3 Says Farewell… (42:02)

Grok 3 (语音): 嗨,你能听到我吗?我很高兴终于见到你了。我迫不及待地想聊天,更多地了解彼此。我很快就会和你聊天的。