Harvard CMSA · 2024

自监督学习世界模型
与AI未来的深度理解

Yann LeCun on Self-Supervised Learning, JEPA & World Models

讲者:Yann LeCun 主办:Harvard CMSA 2024

概述

Yann LeCun在哈佛CMSA的这场讲座中,深入讨论了当前人工智能技术面临的核心挑战,并重点介绍了自监督学习、JEPA(联合嵌入预测架构)和世界模型在推动AI发展中的作用。

他认为,当今AI系统距离人类甚至动物认知与推理能力仍有巨大差距。实现更加智能和可控的AI,需要通过建立高效的世界模型、采用能模拟人类复杂推理和计划方式的架构,以及转向自监督学习方法来大幅突破。

人工智能核心瓶颈

当前AI的局限

即便当前大语言模型能通过法律考试、解题和生成文本,但在日常通用智能方面,比如灵巧操作、复杂推理与计划,远不及人类孩子或猫。人类和动物天生在极少的数据里展现出惊人学习效率。

实用助手的要求

AI系统如果要成为真正实用的助手,要能理解、记忆与推理物理世界,具备长期规划与安全可控性,以能在人类社会中可靠地完成复杂任务。

主流方法的不足

  • 监督学习需要巨量带标注的数据
  • 强化学习在复杂场景下效率极低
  • 前馈传播无法表达灵活的推理机制

人类世界模型:认知启示

婴儿的能力

婴儿在6个月左右已能理解物理世界的基本规则,如物体的支持、坠落等,并建立起能预测动作后果的世界模型。

AI的落后

AI虽然能处理看似复杂的任务,却在实际的物理交互、灵活适应新任务或真实世界的普适推理方面大幅落后。

关键对比

四岁孩子通过的视觉数据总量和大语言模型接受的文本数据总量相当(约10¹⁴字节),但孩子能够在少量样本中学会丰富的常识和推理能力,而LLM在巨量数据下仍缺通用常识。

JEPA与能量函数:AI推理的新范式

传统生成模型的问题

传统生成模型尝试直接预测未来的每个像素,这对于高维连续信号(如自然视频)来说几乎不可能。现实中未来充满不确定性,AI只能给出平均值,导致结果模糊且失真。

JEPA的突破

  • 只需预测在抽象表征空间中的未来状态
  • 把感知输入和输出都编码为低维表征
  • 在表征空间完成推理,规避高维输出的不可控

能量函数的作用

能量函数让模型能灵活表达输入输出间的兼容性。搜索输出的过程,就变成找使能量最低的输出。这种方式天然能支持零样本推理,更像是以优化方式完成AI的复杂推理与规划。

规划与分层世界模型

01

分层规划能力

人类计划从纽约去巴黎,规划路径时并不是一步步细到每个动作,而是先定宏观目标,再逐级分解至具体操作。

02

抽象表征

AI要做到分层规划,就需拥有高度解耦、可组合的抽象表征,不同层次捕捉不同时间尺度和抽象程度的信息。

03

机器人应用

基于自监督预训练的表征,只需给定目标状态,系统就能通过计划找到合适操作,使机器人达到目标,且无需具体任务监督。

自监督学习方法

对比学习

通过生成正负样本对,拉近正样本的表征、推远负样本。难点在高维空间下,负样本数量爆炸。

正则化方法

直接通过限制低能量分布体积,避免表征空间的坍缩。DINO引入动平均权重技巧,极大提升训练稳定性。

DINO系列模型

不用监督标注训练,却能学到极通用的表征,广泛适用于生物医学、遥感、天文图像等任务。

认知架构框架

感知系统
Perception
记忆模块
Memory
世界模型
World Model
任务目标
Task Objectives
安全约束
Guardrails

JEPA框架核心原则

并行编码

输入输出并行编码为抽象表征,在表征空间预测未来状态

能量函数

基于能量函数衡量兼容性,通过全局优化推理输出

零样本迁移

直接支持零样本迁移与更复杂动态规划