Yann LeCun自监督学习与世界模型:AI未来的深度解析
摘要
本文基于Yann LeCun在哈佛CMSA的讲座内容,系统梳理了其对当前AI技术瓶颈的分析及未来发展方向的主张。LeCun指出,尽管大语言模型在文本处理上表现突出,但在物理世界理解、常识推理和复杂规划方面仍远逊于人类甚至动物。他提出通过自监督学习、联合嵌入预测架构(JEPA)和世界模型来突破这些限制,强调AI需要从纯文本驱动转向多模态真实世界信号学习,并构建能够进行分层规划和零样本推理的认知架构。
内容框架与概述
LeCun首先剖析了当前AI技术的核心局限。大语言模型虽然在特定任务上超越人类表现,但在日常通用智能方面——如灵巧操作、复杂推理与长期规划——仍无法与人类儿童或动物相比。人类和动物能够在极少数据下展现出惊人学习效率,这得益于他们与生俱来的世界模型和自监督学习能力。相比之下,当前主流的监督学习需要巨量标注数据,强化学习在复杂场景下效率极低,而文本驱动的自回归生成架构容易产生幻觉且缺乏全局规划能力。
针对这些瓶颈,LeCun提出了基于JEPA和能量函数的新范式。传统生成模型试图直接预测未来的每个像素,这在高维连续信号面前几乎不可能,因为未来充满不确定性,简单的平均预测会导致模糊失真。JEPA的核心创新在于,它只在抽象表征空间中预测未来状态,将感知输入和输出都编码为低维表征,从而规避了高维输出的不可控问题。配合能量函数,系统能够灵活表达输入输出间的兼容性,通过优化搜索找到最佳匹配的预测结果,这种方式天然支持零样本推理,类似人类的理性决策过程。
在实现路径上,LeCun强调需要构建分层的世界模型和规划系统。人类在规划复杂任务时采用分层策略,从宏观目标逐步分解到具体操作,这要求AI具备高度解耦、可组合的抽象表征。目前基于DINO等自监督学习方法已经在构建通用表征方面取得进展,而新一代视频理解模型甚至能自动检测物理不可能事件,显示出基本的常识推理能力。LeCun团队开发的机器人世界模型能够在未知环境下自主规划行动序列达成目标,展现出从纯文本AI向具备物理世界理解能力的通用智能进化的可能性。
核心概念及解读
自监督学习:这是LeCun认为未来AI突破的关键技术方向。与需要大量标注数据的监督学习不同,自监督学习让系统通过主动感知世界、发现其中的结构和关联来学习,更接近人类和动物的学习方式。当前技术路线主要包括对比学习和正则化方法,后者通过限制低能量分布体积来避免表征空间坍缩。实验表明,用自监督学习预训练的表征进行下游任务微调,性能已全面超越传统监督学习。
JEPA(联合嵌入预测架构):这是LeCun提出的解决AI推理极限的核心架构。传统生成模型在像素空间直接预测未来几乎不可能,因为高维连续信号充满不确定性。JEPA的突破在于,它只在抽象表征空间中预测未来状态,将输入输出都编码为低维表征后再进行推理比较,一举规避了高维输出的不可控和模糊问题。配合能量函数,JEPA能够通过全局优化完成复杂推理,天然支持零样本迁移。
世界模型:这是人类和动物能够进行常识推理和高效规划的基础。婴儿很早就理解了物体的持存、支持、坠落等物理规则,建立起能够预测动作后果的世界模型。AI要达到类似的通用智能,也需要构建分层的世界模型——用多层抽象来理解现实,每一层屏蔽细节、聚焦对预测最有用的信息。科学的本质就是在寻找这些能用于预测的高效表征,而AI的发展同样需要这样的分层建模能力。
能量函数:这是JEPA框架中用于衡量输入输出兼容性的关键机制。给定输入,能量函数能够评估怎样的输出才是合理的,搜索输出的过程就变成了找使能量最低的输出。这种方式类似于人类的理性推理过程,能够支持零样本推理和更复杂的动态规划,比传统的单向预测或分类器更加灵活和强大。
分层规划:这是人类处理复杂任务的高效策略,也是AI需要具备的能力。人类计划从纽约去巴黎时,不是一步步规划到每个动作细节,而是先定宏观目标,再逐级分解到具体操作。AI要做到类似的分层规划,需要拥有高度解耦、可组合的抽象表征,不同层次捕捉不同时间尺度和抽象程度的信息。目前这个问题在AI领域仍未完全解决,但已有研究开始探索如何让AI自主发现有用的抽象层次。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | Yann LeCun | Self-Supervised Learning, JEPA, World Models, and the future of AI |
| 作者 | Yann LeCun |
| 发表日期 | 2024 |
| 主办方 | Harvard CMSA |
此文档由 AI 自动整理