Yann LeCun · 2025-02-09

未来人工智能的形态——Yann LeCun在2025年AI行动峰会的演讲

摘要

Yann LeCun在2025年AI行动峰会上探讨了人类水平AI的必要性，指出当前大型语言模型存在自回归生成错误累积、缺乏物理世界理解等局限。他主张放弃生成式模型，转向联合嵌入预测架构（JEPA）和能量基模型，并强调层次化规划、世界模型构建以及开源AI平台对未来发展的关键作用。

核心概念及解读

联合嵌入预测架构（JEPA）：一种通过预测抽象表示而非像素级输出的架构，旨在替代传统生成式模型，提升对视频等复杂数据的预测能力

能量基模型：利用能量函数捕捉变量间依赖关系的模型框架，通过最小化能量函数实现推理，对应人类深度思考的系统二思维模式

世界模型：使AI具备对物理世界运作方式的内在理解，能够预测行动结果并据此进行规划的核心模块

层次化规划：从高层抽象动作到低层具体动作的多级规划机制，模拟人类处理复杂任务时的分层决策过程

开源AI平台：LeCun倡导的AI发展路径，主张通过开放研究和多方协作避免技术垄断，确保AI技术的广泛可及性

《未来人工智能的形态：Yann LeCun在2025年AI行动峰会的演讲》

原文标题：The Shape of AI to Come! Yann LeCun at AI Action Summit 2025
链接：https://www.youtube.com/watch?v=xnFmnU0Pp-8
文章类别：演讲实录

内容整理

演讲主题

Yann LeCun在2025年AI行动峰会上的演讲，探讨了人工智能的未来发展方向，特别是人类水平AI的必要性、当前技术的局限性以及未来可能的技术路径。

演讲框架

├── 欢迎致辞与演讲者介绍
├── 人类水平AI的必要性
│   ├── 智能设备与AI助手的未来
│   └── 人类水平AI的市场需求
├── 当前机器学习技术的局限性
│   ├── 与人类和动物学习能力的差距
│   └── 当前AI系统的缺陷
├── 未来AI技术的探索方向
│   ├── 能量模型与推理机制
│   ├── 世界模型与规划能力
│   └── 层次化规划与抽象表示
└── 结论与建议
    ├── 放弃生成模型，转向联合嵌入预测架构（JAPA）
    ├── 开源AI平台的重要性
    └── 未来研究方向的展望

演讲内容要点

人类水平AI的必要性

智能设备与AI助手的未来：LeCun指出，未来我们将佩戴智能设备（如智能眼镜），并依赖AI助手进行日常交互。这些设备需要具备人类水平的智能，以便用户能够自然地与之互动。
市场需求：AI助手需要具备类似人类的智能水平，因为人类更熟悉与人类水平的智能进行交互。

当前机器学习技术的局限性

与人类和动物学习能力的差距：LeCun强调，当前的机器学习技术在学习能力上远远落后于人类和动物。人类和动物能够快速学习新任务，并基于常识理解物理世界，而AI系统则缺乏这种能力。
当前AI系统的缺陷：现有的AI系统（如大型语言模型）通过自回归方式生成文本，但这种方式容易导致错误累积，并且缺乏对物理世界的真正理解。

未来AI技术的探索方向

能量模型与推理机制：LeCun提出，未来的AI系统需要采用能量模型进行推理，而不是简单的自回归生成。能量模型可以通过优化过程找到最符合输入的输出，类似于人类的“系统二”思维。
世界模型与规划能力：AI系统需要具备世界模型，能够预测行动的结果，并通过优化过程规划行动序列以实现目标。
层次化规划与抽象表示：LeCun强调，AI系统需要能够进行层次化规划，从高层次的抽象动作到低层次的具体动作，类似于人类在复杂任务中的规划方式。

结论与建议

放弃生成模型，转向联合嵌入预测架构（JAPA）：LeCun建议放弃现有的生成模型，转而采用联合嵌入预测架构，该架构通过预测抽象表示而非像素级输出，从而简化问题并提高预测的准确性。
开源AI平台的重要性：LeCun认为，未来的AI平台需要开源，以便全球的研究者和开发者能够共同参与，避免少数公司垄断AI技术。
未来研究方向的展望：LeCun呼吁研究者关注AI的规划能力、层次化学习、成本函数的学习等方向，并强调开源合作的重要性。

文章标签

#人工智能， #未来技术， #YannLeCun， #AI行动峰会

演讲要点

框架：

引言 (0:00-0:51): 介绍演讲者 Yan LeCun (杨立昆) 的背景和成就。
论点陈述：我们需要人类水平的AI (0:52-2:43):
- AI 助手将成为未来智能设备的核心。
- 人类水平的智能对于人机交互至关重要。
- 这些助手将调解我们与数字世界的互动。
现有机器学习的局限性 (2:43-3:36):
- 当前的机器学习技术无法达到人类和动物的学习能力和常识水平。
- 人类和动物拥有快速学习、理解世界、推理和计划的能力，这是基于“常识”的。
自回归语言模型（LLMs）的不足 (3:36-6:57):
- LLMs 逐个生成 token，容易产生错误和偏差（幻觉问题）。
- 这种自回归过程是发散的。
人类/动物智能与AI的差距 (6:57-9:47):
- 即使是猫的智能，当前的AI也无法复制。
- 人类儿童在短时间内通过视觉和触觉获取的信息量与最大的LLM相当。
对LLM的进一步批判 (9:47-10:46):

仅靠文本训练无法达到人类水平的智能。
LLMs 缺乏真正的“心智模型”，容易被误导。

婴儿的学习过程 (10:46-11:44):
- 婴儿在出生后的头几个月积累了大量关于世界的背景知识。
- 这种学习主要是通过观察和少量互动实现的。
未来AI系统的需求 (11:44-12:42):
- 需要能够从感官输入中学习世界模型、具有持久记忆、能够计划和推理的系统。
- 系统应该是可控且安全的。
改变推理方式：从系统1到系统2 (12:42-15:35):
- 当前的LLMs执行固定步骤的推理（系统1）。
- 需要引入基于能量函数的优化推理（系统2），使系统能够根据问题的复杂性调整计算量。
能量基模型 (15:35-16:14):
- 通过能量函数捕捉变量之间的依赖关系。
- 推理过程是找到最小化能量函数的输出。
架构细节与规划 (16:14-17:38):
- 介绍一个包含感知模块、世界模型、记忆和目标函数的系统。
- 世界模型预测在给定当前状态和行动序列下的未来状态。
- 优化目标是找到最小化任务目标和满足安全约束的行动序列。
分层规划 (Hierarchical Planning) (25:13-27:11):
- 系统应该能够进行分层规划，从低级动作到高级抽象动作。
- 这是当前机器学习无法解决的问题。
自主机器智能之路 (27:11-28:24):
- 介绍三年前撰写的论文，阐述了AI研究的重点。
- 通过预测视频中的未来事件来训练系统理解世界。
联合嵌入预测架构 (JEPA) (28:24-32:33):
- 由于难以表示视频帧的分布，生成式模型不适用于视频预测。
- JEPA 通过预测抽象表示而不是像素来解决这个问题。
- 编码器会消除无法预测的细节。
训练 JEPA (32:33-34:19):
- 需要训练代价函数，使其在训练数据上较低，在训练集外较高。
- 介绍对比方法和正则化方法。
自监督学习方法 (34:19-41:17):
- 介绍几种自监督学习方法，如 SimCLR, VicReg, MCR², mmCR, Dino, I-JEPA。
- 这些方法通过学习图像或视频的表示，并用于下游任务。
视频的 JEPA (41:17-42:52):
- 将 JEPA 应用于视频，通过预测部分遮挡的视频帧来学习特征。
- 系统能够检测到视频中发生的奇怪事件（预测误差升高）。
DINO 世界模型 (42:52-46:33):
- 使用 DINO 特征训练一个动作条件的世界模型。
- 通过优化找到最小化目标状态和预测状态之间距离的动作序列。
- 展示了机器人操作物体的示例。
导航应用 (46:33-47:18): 简要提及将类似思想应用于导航。
结论与建议 (47:18-50:28):
- 放弃生成式模型，转向 JEPA。
- 使用能量基模型。
- 使用正则化方法。
- 谨慎使用强化学习。
- 不要只关注 LLM。
- 需要解决的问题：训练、规划、分层规划、学习成本模块等。
- 未来的虚拟助手需要开放平台，并由多方协作开发。
- 开源 AI 平台是必要的。
- 警惕秘密研究，开放研究才能保持领先。

要点：

人类水平的AI是必要的，但当前的机器学习技术（特别是LLMs）存在严重局限。
自回归语言模型（LLMs）逐个生成token，容易产生错误，且缺乏对世界的理解。
通过预测视频中的未来事件，可以训练系统理解世界，但生成式模型不适用于视频预测。
联合嵌入预测架构（JEPA）通过预测抽象表示来解决视频预测问题。
需要引入基于能量函数的优化推理（系统2），使系统能够根据问题的复杂性调整计算量。
分层规划是当前机器学习无法解决的关键问题。
未来的虚拟助手需要开放平台，并由多方协作开发。开源AI是必要的。
Yan LeCun 呼吁 AI 研究社区放弃生成式模型和 LLM，转向 JEPA 和能量基模型，并解决分层规划等关键问题。

演讲者是 Meta 的首席 AI 科学家 Yan LeCun（杨立昆），他在一个学术/技术会议上发表了这篇演讲，主要面向 AI 研究者和从业者。

演讲稿

引言 (0:00-0:51):

大家好！很荣幸来到这里。今天我将和大家分享一些关于人工智能的看法。

论点陈述：我们需要人类水平的AI (0:52-2:43):

我想先强调一点：我们需要人类水平的人工智能。这不仅仅是一个有趣的科学问题，也是一个实际的产品需求。想象一下，未来我们都将佩戴智能设备，比如智能眼镜。在这些设备中，我们将能够随时访问 AI 助手，通过语音、肌电图（CMG）等方式与它们互动。这些眼镜最终会有显示屏（虽然目前还没有）。为了让我们与这些助手自然地互动，它们必须具备人类水平的智能。我们习惯于和其他人互动，我们对人类的智能水平有预期，与具有类似智能形式的系统互动会更轻松。这些无处不在的助手，将调解我们与数字世界的所有互动，这就是为什么我们需要它们易于使用，即使对于不熟悉技术的大众也是如此。

现有机器学习的局限性 (2:43-3:36):

但问题是，与人类和动物相比，目前的机器学习还差得很远。我们还没有真正掌握能让机器拥有与人类和动物相同的学习能力、常识以及对物理世界的理解的技术。人类和动物拥有大量的背景知识，这使得他们能够快速学习新任务，理解世界如何运作，能够进行推理和计划。这些都是基于我们所说的“常识”，虽然这个概念并没有明确的定义。并且，我们的行为，以及动物的行为，本质上都是由目标驱动的。

自回归语言模型（LLMs）的不足 (3:36-6:57):

我想指出的是，目前我们所拥有的，或者说几乎每个人都在使用的 AI 系统，并不具备我们所期望的特性。原因在于，它们基本上是自回归地逐个生成 token 的。也就是说，你有一个 token 序列（token 可以是子词单元，但这并不重要），然后有一个预测器在这个序列上重复，它基本上获取之前 token 的一个窗口，并预测下一个 token。训练这些系统的方法是，将序列放在输入端（我为屏幕闪烁道歉，我稍后尝试调整一下分辨率）。

(调整屏幕分辨率)

希望这能好一些。这些模型的训练方式是，获取一个序列，然后训练系统在输出端重现其输入。由于它具有因果结构，它不能作弊并使用特定的输入来预测自身，它只能查看其左侧的符号，这被称为因果架构。这非常高效，这就是人们所说的 GPT（通用预训练 Transformer），但你不必在其中放入 Transformer，它可以是任何东西，它只是一个因果架构。

训练完这些系统后，你可以通过自回归地生成一个 token，将其移入输入，然后生成第二个 token，再将其移入，以此类推，来进行文本生成。这显然不是一个新概念。但这里有一个问题，这个过程基本上是发散的。每次你生成一个 token，都有可能这个 token 不在合理的答案集合中，从而将你带离合理的答案集合。如果发生这种情况，之后就无法修复了。如果你假设生成错误 token 的概率是独立的（当然它们不是独立的），那么你就会得到指数级的发散。这就是为什么这些模型会出现幻觉问题。

人类/动物智能与AI的差距 (6:57-9:47):

但我们忽略了一些非常重要的东西。我们甚至无法复制猫或老鼠的智能，更不用说狗的智能了。它们可以完成惊人的壮举，它们理解物理世界。任何家猫都可以计划非常复杂的行动。有些猫知道如何开门、开水龙头等等。在人类中，一个 10 岁的孩子可以收拾餐桌并把碗碟放进洗碗机，无需学习，第一次让你 10 岁的孩子做这件事，他/她就能做到。任何 17 岁的孩子都可以在 20 小时的练习中学会开车。但我们仍然没有能够像猫一样行动的机器人，我们没有能够收拾餐桌和把碗碟放进洗碗机的家用机器人，我们也没有 L5 级别的自动驾驶汽车，尽管我们拥有数十万甚至数百万小时的监督训练数据。这告诉我们，我们忽略了一些非常重要的东西。

然而，我们有可以通过律师考试、做数学题、证明定理的系统，但却没有家用机器人。我们不断地遇到这个被称为莫拉维克悖论的悖论。我们认为理所当然的事情，因为人类和动物可以做到，我们认为这并不复杂，但实际上非常复杂。而我们认为只有人类才能做到的事情，比如处理和生成语言、下棋、下围棋、打扑克、写诗等等，结果却相对容易。

原因可能在于这个非常简单的计算。典型的 LLM 现在大约在 30 万亿个 token 上进行训练。大约是 2 的 13 次方个单词，每个 token 大约 3 个字节。数据量大约是 10 的 14 次方字节。我们中的任何一个人都需要将近 50 万年才能读完所有这些材料，这基本上是互联网上所有公开的文本。现在考虑一个 4 岁的人类孩子，他总共醒了 16000 小时，顺便说一句，这只是 YouTube 上 30 分钟的上传量。我们有 200 万个视神经纤维，每个纤维每秒大约携带 1 字节的数据（可能少一点，但这并不重要）。因此，4 年的数据量大约是 10 的 14 次方。一个 4 岁的孩子在 4 年里看到的视觉感知数据量，与最大的 LLM 相当。对于盲童来说，触觉也是同样的带宽。这告诉我们，我们永远不可能通过仅仅处理文本来达到人类水平的智能，这是不可能发生的。尽管有些人出于自身利益希望这种情况发生，告诉我们明年就能达到博士水平的智能，但这不会发生。我们可能会在某些领域的某些子领域达到博士水平，比如下棋。

对LLM的进一步批判 (9:47-10:46):

只要我们专门针对这些问题训练这些系统，就像 Bernard 解释的视觉错觉一样，当你向 LLM 提出一个问题时，就会出现很多这类问题。如果问题是一个标准的谜题，答案会在几秒钟内被复述出来。如果你稍微改变一下问题的陈述，系统仍然会给出与之前相同的答案，因为它没有真正的心智模型来理解谜题中的内容。

婴儿的学习过程 (10:46-11:44):

那么，人类婴儿是如何学习世界如何运作的呢？婴儿在出生后的头几个月里积累了大量关于世界的背景知识，比如物体永久性、固体性、刚性、物体的自然类别。在孩子们理解语言之前，他们就已经理解了桌子和椅子的区别，这是自然而然地发展起来的。他们在 9 个月左右的时候理解了直观的物理概念，比如重力、惯性等等。这需要很长时间，主要是通过观察（直到 4 个月，因为婴儿在那之前对世界没有真正的影响），但之后是通过互动。但所需的互动量非常小。

未来AI系统的需求 (11:44-12:42):

如果我们想要 AI 系统最终能够达到人类水平（可能需要一段时间），我们在 Meta 称之为高级机器智能（Advanced Machine Intelligence），我们不喜欢 AGI（人工通用智能）这个术语，因为人类智能实际上非常专业化，所以称之为 AGI 有点用词不当。我们称之为 AMI，我们实际上发音为 Ami，在法语中是朋友的意思。我们需要能够从感官输入中学习世界模型的系统，基本上是关于世界如何运作的心智模型，你可以在脑海中操纵它们，比如从视频中学习 2D 物理。我们需要具有持久记忆的系统，能够计划行动的系统（可能是分层的，以便实现目标），以及能够推理的系统。然后，系统应该是通过设计来实现可控和安全的，而不是像 LLM 那样通过微调来实现。

改变推理方式：从系统1到系统2 (12:42-15:35):

据我所知，构建这种系统的唯一方法是改变当前 AI 系统执行的推理类型。现在，LLM 执行推理的方式是通过运行固定层数的神经网络（Transformer），然后生成一个 token，将该 token 注入输入，然后再次运行固定层数。这样做的问题是，如果你问一个简单的问题或一个复杂的问题，并要求系统用是或否回答，比如 2 加 2 是否等于 4（是或否），或者 P 是否等于 NP（是或否），系统将花费完全相同的计算量来回答这两个问题。所以人们一直在作弊，告诉系统解释（思维链技巧），你基本上让系统生成更多的 token，这样它就会花费更多的计算来回答问题，但这是一种 hack。

在统计学中（这会让 Mike 高兴），推理的方式不是这样的。在经典 AI、统计学、结构预测等许多不同领域，推理的工作方式是，你有一个函数来衡量你的观察结果和建议的输出之间的兼容性或不兼容性。然后，推理过程包括找到一个输出值，该值最小化这个不兼容性度量。我们称之为能量函数。你有一个能量函数（由右侧的方框表示），系统只是通过执行优化来进行推理。如果推理问题更困难，系统将花费更多的时间执行推理，换句话说，他们会思考复杂问题的时间比思考答案显而易见的简单问题的时间更长。

在经典 AI 中，这是一种非常经典的做法。经典 AI 完全是关于推理、搜索，因此也是关于优化的。几乎任何计算问题都可以归结为优化问题或搜索问题。这在概率建模中也非常经典，比如概率图模型等等。

这种类型的推理更类似于心理学家所说的“系统 2”。系统 2 是指你在采取行动之前思考你要采取什么行动或行动序列，你在做某事之前先思考一下。系统 1 是指你无需思考就可以做某事，它变成了潜意识。所以，LLM 是系统 1，我提出的则是系统 2。

能量基模型 (15:35-16:14):

解释这一点的合适的半理论框架是能量基模型，我没有时间详细介绍，但基本上，你通过一个能量函数来捕捉变量之间的依赖关系，比如观察值 X 和输出值 Y。当 X 和 Y 兼容时，能量函数取低值，当 X 和 Y 不兼容时，能量函数取较大值。你不想像我们刚才看到的那样仅仅从 X 计算 Y，你只需要一个能量函数来衡量不兼容的程度，然后，给定一个 X，找到一个对于该 X 具有低能量的 Y。

架构细节与规划 (16:14-17:38):

现在，让我们稍微深入了解一下这种架构的细节，以及它如何与思考或规划相关联。系统会是这样的：你从世界中获取观察结果，它们通过一个感知模块，该模块产生关于世界状态的估计。但当然，世界的状态并非完全可观察的，所以你可能需要将其与记忆的内容结合起来，记忆包含你对当前未感知的世界状态的想法。这两者的结合进入一个世界模型。那么，什么是世界模型？世界模型是，给定当前对世界状态的估计（在一个抽象的表示空间中），以及你想象要采取的行动序列，你的世界模型预测在采取该行动序列后将会发生的世界状态。这就是世界模型。如果我告诉你，想象一个漂浮在你面前的立方体，然后将这个立方体绕垂直轴旋转 90 度，它会是什么样子？你很容易就能拥有这个立方体旋转的心智模型。

（调整屏幕分辨率）

让我们希望这次会更稳定。好的，我们可以通过优化来实现这一点.

(再次调整屏幕分辨率)

我已经没有外接屏幕了。

(继续调整屏幕分辨率)

我想在我们拥有真正有效工作的音视频之前，我们就已经拥有人类水平的智能了。

分层规划 (Hierarchical Planning) (25:13-27:11):

如果我们有一个能够预测一系列行动结果的世界模型，我们可以将其提供给一个目标函数，这是一个任务目标函数，用于衡量预测的最终状态在多大程度上满足我们为自己设定的目标。它只是一个成本函数。我们还可以设置一些护栏目标，将它们视为系统安全行为所需满足的约束。这些护栏将被显式实现，系统通过优化来进行，它正在寻找一个最小化任务目标和护栏目标的行动序列（在运行时）。我们现在不讨论学习，我们只讨论推理。这将保证系统的安全性，因为护栏保证了安全性，你无法通过给它一个提示来绕过这些护栏目标，从而“越狱”该系统。护栏目标将被硬编码，它们可能会被训练，但它们会被硬编码。

一个行动序列可能应该使用一个你重复使用的单一世界模型。你有一个世界模型，如果你执行第一个行动，它预测下一个状态，如果你执行第二个行动，它预测第二个下一个状态。你可以沿着轨迹设置护栏成本和目标任务。我没有指定我们可以使用什么优化算法，这对我们的讨论并不重要。如果世界不是完全确定性和可预测的，世界模型可能需要有潜在变量来解释我们未观察到的关于世界的所有事物，这使得我们的预测基本上是不准确的。

最终，我们想要的是一个能够进行分层规划的系统。也就是说，它可能具有多个抽象级别，这样在低级别，我们可以计划低级动作，比如肌肉控制，但在高级别，我们可以计划抽象的宏观动作，其中世界模型以更长的时间步长进行预测，但在一个更抽象的表示空间中，因此包含更少的细节。所以，如果我坐在纽约大学的办公室里，决定去巴黎，我可以将这个任务分解为两个子任务：去机场和搭飞机。现在我有一个子目标：去机场。我在纽约市，所以去机场包括下楼到街上，叫一辆出租车。我如何下楼到街上？我需要走到电梯，按下按钮，下去，走出大楼。我如何走到电梯？我需要从椅子上站起来，拿起我的包，打开门，走到电梯，避开所有障碍物。然后在某个时刻，我达到一个不需要计划的水平，我可以采取行动。

我们一直在做这种类型的分层规划，而且我告诉你，我们不知道如何用学习机器来做这件事。几乎每个机器人都进行分层规划，但层次结构中每个级别的表示都是手工制作的。我们需要的是训练一个架构（可能是我在这里描述的这种类型），以便它可以学习抽象表示，不仅是世界状态的抽象表示，还包括预测世界将会发生什么的世界模型，以及各个抽象级别的抽象动作，这样我们就可以进行这种分层规划。动物可以做到这一点，人类非常擅长这一点，我们目前完全无法用机器学习来做到这一点。如果你正在开始攻读博士学位，这是一个很好的课题，可能需要三年以上的时间。

自主机器智能之路 (27:11-28:24):

大约三年前，我写了一篇长文，解释了我认为 AI 研究应该关注的重点。这是在整个 GPT、ChatGPT 热潮之前，我对这个问题的看法没有改变，ChatGPT 没有改变任何事情，我们之前就知道会发生什么。这就是这篇论文：《通往自主机器智能之路》（我们现在称之为高级机器智能，因为“自主”会让人们感到害怕）。这篇论文在 OpenReview 上，不在 arXiv 上，而且我已经以各种方式给出了这个演讲的各种版本。

一个非常自然的想法是，让系统理解世界如何运作，就是使用我们用来训练自然语言系统的相同过程，并将其应用于视频。如果一个系统能够预测视频中将会发生什么，你给它展示一段视频，并要求它预测接下来会发生什么，那么它可能已经理解了世界的底层结构。因此，训练它进行这种预测可能会导致系统理解世界的底层结构。这对文本有效，因为预测单词相对简单。为什么预测单词简单？因为单词的数量是有限的，当然，可能的 token 数量是有限的。所以我们无法准确预测哪个单词会跟在另一个单词之后，或者文本中缺少哪个单词，但我们可以为字典中的每个可能的单词生成一个概率分布或分数。我们无法对图像或视频帧这样做，我们没有很好的方法来表示视频帧上的分布。每次尝试这样做都会遇到数学上的难题。

联合嵌入预测架构 (JEPA) (28:24-32:33):

你可以尝试使用统计学和物理学家发明的数学方法（变分推理等等）来解决这个问题，但实际上，最好是放弃概率建模的整个想法，直接说，我只想学习这个能量函数，它告诉我我的输出是否与我的输入兼容，我不关心这个能量函数是否是概率分布的负对数。当然，我们需要这样做的原因是，我们无法准确预测世界中将会发生什么。有一系列可能发生的事情，如果我们训练一个系统只预测一帧，它不会做得很好。

解决这个问题的方法是一种新的架构，我称之为联合嵌入预测架构（Joint Embedding Predictive Architecture），简称 JEPA。这是因为生成式架构根本不适用于生成视频。你可能已经看到了生成相当惊人内容的视频生成系统，它们背后有很多技巧，它们并没有真正理解物理。它们不需要理解物理，它们只需要预测漂亮的图片，它们不需要真正拥有准确的世界模型。

这是 JEPA 的工作原理：你将观察结果和输出（即下一个观察结果）都输入到一个编码器中，这样预测就不在于预测像素，而在于预测视频中发生的事情的抽象表示（或者任何东西）。

让我们比较一下这两种架构。左边是生成式架构，你将观察值 X 输入到一个编码器，可能还有一个预测器或解码器，然后你对 Y 进行预测。这是直接预测。然后在右边，这个 JEPA 架构，你将 X 和 Y 都输入到编码器（它们可能相同或不同），然后在抽象空间中从 X 的表示预测 Y 的表示。这将导致系统学习一个编码器，该编码器消除所有你无法预测的东西。这就是我们真正做的。如果我观察房间的左侧，然后将摄像机移到右侧，没有任何视频预测系统（包括人类）可以预测你们每个人的样子，或者预测墙上的纹理，或者硬木地板上的木材纹理。有很多东西我们根本无法预测，所以与其坚持我们应该对我们无法预测的东西进行概率预测，不如不预测它，学习一种表示，其中所有这些细节都被消除了，这样预测就简单得多。它可能仍然需要是非确定性的，但至少我们简化了问题。

有各种各样的 JEPA，我不会详细介绍，其中一些有潜在变量，一些是动作条件的。我将讨论动作条件的 JEPA，因为它们是最有趣的，因为它们实际上是世界模型。你有一个编码器，X 是当前的世界状态或当前观察值，SX 是当前的世界状态，你将一个你想象要采取的行动输入到一个预测器，预测器（也就是世界模型）预测世界下一个状态的表示。这就是你可以进行规划的方式。

训练 JEPA (32:33-34:19):

我们需要训练这些系统，我们需要弄清楚如何训练这些 JEPA 架构。这并不容易，因为你需要训练 JEPA 架构中的成本函数，该函数衡量 Y 的表示和 Y 的预测表示之间的差异。我们需要这个在训练数据上较低，但我们也需要它在训练集之外较高。这就是这种能量函数，它有等能量的轮廓。我们需要确保能量在数据流形之外较高。

我只知道两类方法可以做到这一点。一类方法被称为对比方法，它包括拥有数据点（那些深蓝色的点），降低能量，然后生成（那些闪烁的绿点），然后提高能量。这种对比方法的问题在于，它们在高维空间中无法很好地扩展。如果你的 Y 空间中有太多的维度，你将需要在许多不同的地方提高能量，这效果不好，你需要大量的对比样本才能使这种方法起作用。还有另一类方法，我称之为正则化方法，它们对能量使用正则化器，以最小化可以取低能量的空间体积。

这导致了两种不同的学习过程。一种学习过程是对抗性的，你需要生成那些对比点，然后将它们的能量提高到某个损失函数。另一种是某种正则化器，它将“收缩包裹”数据流形，以确保能量在外部更高。

自监督学习方法 (34:19-41:17):

有许多技术可以做到这一点，我将描述其中的几个。我们几年前开始测试它们的方式是，训练它们学习图像的表示。你获取一张图像，以某种方式破坏或转换它，然后将原始图像和损坏的版本输入到相同的编码器中，并训练一个预测器，从损坏的图像中预测原始图像的表示。完成系统训练后，你移除预测器，并将编码器输出端的表示作为输入，输入到一个简单的线性分类器或类似的东西，你对它进行监督训练，以验证学习到的表示是好的。这个想法非常古老，可以追溯到 20 世纪 90 年代，比如我们过去称之为孪生网络（Siamese Networks）的东西。

最近的一些关于这些联合嵌入架构的工作，然后添加预测器是最近的。 SimCLR（来自 Google）是一种对比方法，源自孪生网络，但维度是受限的。

正则化方法的工作方式如下：你尝试估计编码器输出的信息内容。你需要做的是防止编码器崩溃。训练 JEPA 架构有一个简单的解决方案，即编码器基本上忽略输入，产生一个恒定的输出，现在预测误差始终为零。显然，这是一个崩溃的解决方案，没有意义。所以你需要防止系统崩溃，这就是我之前谈到的正则化方法。一种间接的方法是保持编码器输出的信息内容。你将有一个训练目标函数，它是负的信息内容（如果你愿意，因为我们在机器学习中最小化，而不是最大化）。一种方法是，获取编码器在一批样本上输出的表示向量，并确保它们包含信息。你如何做到这一点？你可以获取该表示矩阵，并计算该矩阵与其转置的乘积，得到一个协方差矩阵，然后你尝试使该协方差矩阵等于单位矩阵。

这样做有一个坏消息，就是这基本上是通过对变量之间依赖关系的性质做出非常强的假设来近似信息内容的。事实上，它是信息内容的上限，我们向上推它，祈祷实际的信息内容（低于上限）会跟随。所以从理论上讲，这有点不规范，但效果还不错。

同样，你有一个来自编码器的矩阵，它有许多样本，每个向量都是一个单独的变量。我们要做的是尝试使每个变量单独具有信息性。我们将尝试防止变量的方差变为零，强制它为 1，例如。然后我们将对变量进行去相关，这意味着计算该矩阵的协方差矩阵，将其转置乘以自身，然后尝试使生成的协方差矩阵尽可能接近单位矩阵。

还有其他方法试图使样本正交，而不是变量。这些是对抗样本对比方法，但它们在高维空间中不起作用，并且需要大批量。

我们有一种这种类型的方法，称为 VicReg，意思是方差-不变性-协方差正则化（Variance-Invariance-Covariance Regularization），它有针对这个协方差矩阵的特定损失函数。 Yoshua Bengio 和他的团队提出了类似的方法，称为 MCR²，还有来自纽约大学的一些同事提出的另一种方法，称为 mmCR，来自神经科学领域。

这是一组方法，我非常喜欢这些方法，而且它们效果非常好，我预计在不久的将来会看到更多这样的方法。但还有另一组方法，在某种程度上，在过去几年中取得了更大的成功，这些方法基于蒸馏（distillation）。同样，你有两个编码器，它仍然是一个联合嵌入预测架构，你有两个编码器，它们共享相同的权重，但实际上并非如此。右侧的编码器获得的权重是左侧编码器权重的版本，这些权重是通过指数移动平均获得的。基本上，你强制右侧的编码器比左侧的编码器更慢地改变其权重，出于某种原因，这可以防止崩溃。有一些关于这个的理论工作，实际上，Jure Zbontar 刚刚完成了一篇论文，但为什么这种方法有效有点神秘。坦率地说，我对这种方法有点不舒服，但我们必须接受它实际上有效的事实。

如果你小心的话，真正的工程师构建东西，不一定知道它们为什么工作，这就是优秀的工程师。法国有一个大家都应该知道的笑话，从好的理工学院毕业的学生，当他们建造东西时，它不起作用，但他们可以告诉你为什么。

（笑声）

抱歉，我不是在这里学习的，你可以看出来。

为了节省时间，我跳过一些内容。

视频的 JEPA (41:17-42:52):

有一种实现这种蒸馏的方法，称为 I-JEPA，还有另一种称为 Dino 或 DINO。 Dino V2，人们正在开发 V3，这是由我在巴黎 FAIR 的一些同事制作的方法，由 Maxime Oquab 领导的团队。还有一个稍微不同的版本，称为 V-JEPA，也是由蒙特利尔和巴黎的 FAIR 人员开发的。不需要负样本，这些系统学习通用特征，然后你可以将这些特征用于任何下游任务，而且这些特征非常好。这效果非常好。

我不会详细介绍，因为我没有时间。最近，我们开发了一个用于视频的版本。这个系统从视频中获取 16 帧的片段，你运行这 16 帧到一个编码器，然后你通过遮挡部分内容来破坏这 16 帧，将它们运行到同一个编码器，然后训练一个预测器，从部分遮挡或损坏的视频中预测完整视频的表示。这也是巴黎和蒙特利尔 FAIR 的一组研究人员开发的。

这效果非常好，你可以学习特征，然后将这些特征提供给一个可以对视频中的动作进行分类的系统，并且你可以通过这些方法获得非常好的结果。同样，我不会详细介绍，但这里有一件非常有趣的事情。这是我们刚刚提交的一篇论文。如果你给那个系统展示一些非常奇怪的事情发生的视频，系统实际上能够告诉你，我的预测误差非常高，这个窗口中发生了一些奇怪的事情。你获取一个视频，获取 16 个视频帧的窗口，将其滑过视频，并测量系统的预测误差。如果发生了一些非常奇怪的事情，比如一个物体自发消失或改变形状，预测误差就会飙升。

这告诉你，尽管这个系统很简单，但它已经学习到了一定程度的常识。它可以告诉你，世界上是否发生了真正奇怪的事情。有很多实验在各种情况下展示了这一点，对于各种类型的直观物理，但我不会详细介绍。

DINO 世界模型 (42:52-46:33):

我要跳到这项最新的工作，DINO 世界模型。这是使用 DINO 特征，然后在上面训练一个动作条件的预测器，这样它就是一个我们可以用于规划的世界模型。这是一篇在 arXiv 上的论文，还有一个网站，你可以查看，网址在顶部。基本上，训练一个预测器，使用你通过 DINO 编码器运行的世界图片，然后一个动作，可能是机器人采取的动作。你从世界中获取下一帧，运行到 DINO 编码器，然后训练你的预测器，根据采取的动作预测将会发生什么。非常简单。

要进行规划，你观察一个初始状态，将其运行到 DINO 编码器，然后使用想象的动作多次运行你的世界模型。然后你有一个目标状态，例如，由目标图像表示，你将其运行到编码器，然后计算预测状态和表示目标图像的状态之间的状态空间距离。规划包括进行优化，找到一个最小化运行时成本的动作序列。

人们对测试时计算等等感到兴奋，好像这是一件新事物，但这在最优控制中是完全经典的，这被称为模型预测控制，它与我存在的时间差不多。

第一篇关于使用这种类型的模型、使用优化进行规划的论文来自 20 世纪 60 年代初。实际上学习模型的论文更晚一些，它们来自 20 世纪 70 年代，来自法国，它被称为 IDCOM。一些最优控制领域的人可能知道这个。

但这是一个非常简单的概念，这效果非常好。让我跳到视频。

假设你有这个 T 形物体，你想把它推到一个特定的位置。你知道它必须到达哪个位置，因为你将该位置的图像输入到编码器，这给了你表示空间中的一个目标状态。

(播放视频)

在顶部，你看到当你采取一系列计划的动作时，现实世界中实际发生的情况。在底部，你看到系统的内部心理预测，系统正在计划的行动序列。这被运行到一个解码器，该解码器产生内部状态的图形表示，但这是单独训练的，没有图像生成。

让我跳到更有趣的一个。这里有一个初始状态，它是一堆随机扔在地板上的蓝色筹码，目标状态在顶部。你在这里看到的是规划产生的动作，机器人正在完成这些动作。这个环境的动力学实际上相当复杂，因为那些蓝色筹码会相互作用等等。系统只是通过观察一堆状态-动作-下一个状态来学习这一点。

这在很多情况下都有效，比如手臂、在迷宫中移动、推动 T 形物体等等。

导航应用 (46:33-47:18):

我不确定我回到了哪里。我们已经将类似的想法应用于导航，但为了节省时间，我将跳过。这基本上是视频序列，其中一帧是在一个时间拍摄的，然后机器人移动，通过里程计，你知道机器人移动了多少，你得到下一帧。所以你只需训练一个系统来预测如果你采取特定的运动动作，世界会是什么样子。接下来你可以做的是，你可以告诉一个系统，比如“导航到那个点”，它就会做到，并且会避开路上的障碍物。这是一项非常新的工作。

结论与建议 (47:18-50:28):

让我进入结论。我有一些建议。

放弃生成式模型。 这是当今最流行的方法，每个人都在研究，停止研究这个。研究 JEPA，它们不是生成式模型，它们在表示空间中进行预测。
研究概率模型，因为它很棘手。 使用能量基模型。 Michel 和我进行了 20 年的争论。
放弃对比方法，支持这些正则化方法。
放弃强化学习。 我已经说了很长时间了，我们知道它效率低下。你必须将强化学习作为最后的手段，当你的模型不准确或你的成本函数不准确时。
如果你对人类水平的 AI 感兴趣，就不要研究 LLM。 没有意义。事实上，如果你在学术界，不要研究 LLM，因为你正在与数百人竞争，他们拥有数万个 GPU，你无法带来任何东西，做点别的事情。

有很多问题需要解决：用大规模数据训练这些东西，规划算法效率低下，我们需要提出更好的方法。所以如果你喜欢优化、应用数学，这很好。具有潜在变量的 JEPA，不确定性下的规划，分层规划（这是完全未解决的），学习成本模块（因为大多数你不能手工构建，你需要学习它们），然后还有探索等问题。

在未来，我们将拥有通用的虚拟助手，它们将随时与我们同在，它们将调解我们与数字世界的所有互动。我们不能让这些系统来自少数来自美国西海岸或中国的公司。这意味着我们构建这些系统的平台需要是开源的，并且广泛可用。它们训练起来很昂贵，但一旦你拥有了一个基础模型，针对特定应用进行微调相对便宜，很多人都可以负担得起。所以平台需要共享，它们需要说世界上所有的语言，理解世界上所有的文化、所有的价值观、所有的兴趣中心。世界上没有一个实体可以训练这种类型的基础模型，这可能必须以协作方式或分布式方式完成。对于对大规模优化的分布式算法感兴趣的应用数学家来说，这也是一些工作。

所以，开源 AI 平台是必要的。我看到的危险是，在欧洲和其他地方，由于政治竞争，政府会诱使政府将开源模型的发布定为非法，因为他们认为一个国家如果保守其科学秘密，就能保持领先。这将是一个巨大的错误。当你秘密进行研究时，你就会落后，这是不可避免的。将会发生的是，世界其他地方将走向开源，并超越你。目前正在发生的情况是，开源模型正在缓慢但肯定地超越专有模型。

非常感谢！

‹

马克龙访谈：人工智能的机遇与挑战

埃马纽埃尔·马克龙 · 2025-02-10

欧洲的转折点：马斯克论官僚主义与创新

Elon Musk · 2025-02-08

›