Yann LeCun：自监督学习世界模型与AI未来

概述

Yann LeCun在哈佛CMSA的这场讲座中，深入讨论了当前人工智能技术面临的核心挑战，并重点介绍了自监督学习、JEPA（联合嵌入预测架构）和世界模型在推动AI发展中的作用。

他认为，当今AI系统距离人类甚至动物认知与推理能力仍有巨大差距。实现更加智能和可控的AI，需要通过建立高效的世界模型、采用能模拟人类复杂推理和计划方式的架构，以及转向自监督学习方法来大幅突破。

人工智能核心瓶颈

当前AI的局限

即便当前大语言模型能通过法律考试、解题和生成文本，但在日常通用智能方面，比如灵巧操作、复杂推理与计划，远不及人类孩子或猫。人类和动物天生在极少的数据里展现出惊人学习效率。

实用助手的要求

AI系统如果要成为真正实用的助手，要能理解、记忆与推理物理世界，具备长期规划与安全可控性，以能在人类社会中可靠地完成复杂任务。

主流方法的不足

监督学习需要巨量带标注的数据
强化学习在复杂场景下效率极低
前馈传播无法表达灵活的推理机制

人类世界模型：认知启示

婴儿的能力

婴儿在6个月左右已能理解物理世界的基本规则，如物体的支持、坠落等，并建立起能预测动作后果的世界模型。

AI的落后

AI虽然能处理看似复杂的任务，却在实际的物理交互、灵活适应新任务或真实世界的普适推理方面大幅落后。

关键对比

四岁孩子通过的视觉数据总量和大语言模型接受的文本数据总量相当（约10¹⁴字节），但孩子能够在少量样本中学会丰富的常识和推理能力，而LLM在巨量数据下仍缺通用常识。

JEPA与能量函数：AI推理的新范式

传统生成模型的问题

传统生成模型尝试直接预测未来的每个像素，这对于高维连续信号（如自然视频）来说几乎不可能。现实中未来充满不确定性，AI只能给出平均值，导致结果模糊且失真。

JEPA的突破

只需预测在抽象表征空间中的未来状态
把感知输入和输出都编码为低维表征
在表征空间完成推理，规避高维输出的不可控

能量函数的作用

能量函数让模型能灵活表达输入输出间的兼容性。搜索输出的过程，就变成找使能量最低的输出。这种方式天然能支持零样本推理，更像是以优化方式完成AI的复杂推理与规划。

自监督学习世界模型
与AI未来的深度理解

Yann LeCun on Self-Supervised Learning, JEPA & World Models

概述

人工智能核心瓶颈

当前AI的局限

实用助手的要求

主流方法的不足

人类世界模型：认知启示

婴儿的能力

AI的落后

JEPA与能量函数：AI推理的新范式

传统生成模型的问题

JEPA的突破

能量函数的作用

规划与分层世界模型

分层规划能力

抽象表征

机器人应用

自监督学习方法

对比学习

正则化方法

DINO系列模型

认知架构框架

JEPA框架核心原则

并行编码

能量函数

零样本迁移