MIT 6.S191:深度生成式建模的核心理论与方法
摘要
本文是MIT 6.S191(2025)第四讲的完整文字实录,系统介绍了深度生成式建模的基础理论。讲座首先阐述了生成式建模与监督学习的本质差异,明确了其作为无监督学习方法的定位和核心目标——学习数据分布p(x)并生成新数据实例。文章重点讲解了两大类基础模型:自编码器(AEs)与变分自编码器(VAEs),以及生成对抗网络(GANs)。详细剖析了它们的编码器-解码器架构、基于重构损失的无监督训练方式、VAE引入的概率化隐空间、KL散度正则化、重参数化技巧,以及GAN的对抗训练机制。课程还探讨了这些技术在特征发现、异常检测、数据公平性处理等方面的实际应用价值。
内容框架与概述
讲座从生成式AI的时代背景切入,首先明确定义了生成式建模的核心原理:通过学习数据的底层概率分布p(x),实现密度估计和新样本生成两大目标。讲者通过生动的人脸识别测试现场展示了生成式模型的逼真程度,引发听众对这一领域的兴趣。接着阐述了生成式建模与监督学习的根本区别——前者属于无监督学习,不需要标签数据,而是直接从数据本身学习模式和结构。
在核心内容部分,讲座首先引入"隐变量"这一关键概念,通过柏拉图洞穴寓言生动阐释了隐变量作为无法直接观测的底层特征的本质。随后深入讲解第一类方法:自编码器(AEs)与变分自编码器(VAEs)。AE的基本原理是通过编码器-解码器架构,利用重构损失(如MSE)进行无监督训练,在低维隐空间中提取数据的核心特征。VAE则在此基础上引入随机性,将隐变量从确定性点转变为概率分布(由均值μ和标准差σ定义),通过KL散度正则化强制隐空间遵循先验分布(通常为标准正态分布N(0,1)),从而确保隐空间的连续性和完备性。讲者还详细解释了重参数化技巧(Reparameterization Trick),解决了采样操作阻断梯度传播的问题。
第二类方法是生成对抗网络(GANs),其核心思想是通过生成器(G)和判别器(D)两个网络的对抗训练来生成高质量样本。生成器试图从噪声生成逼真数据欺骗判别器,而判别器则努力区分真假数据,这种Minimax博弈最终达到纳什均衡。讲座还介绍了CycleGAN等重要变体,展示了其在非配对域转换(如马与斑马图像转换)、风格迁移和语音转换等方面的应用能力。
最后,讲座总结了AE/VAE与GANs作为基础生成模型的重要性,指出它们为Diffusion Models、大语言模型等先进技术奠定了理论基础,并预告了后续课程将深入探讨扩散模型等内容。课程还布置了基于CNN的VAE实验,让学生在实践中掌握人脸检测与去偏见技术。
核心概念及解读
生成式建模(Generative Modeling): 属于无监督学习范畴,其核心目标是学习数据的底层概率分布p(x),通过密度估计掌握数据特征,并从该分布中采样生成全新的数据实例,这是当前生成式AI浪潮的技术基石。
隐变量(Latent Variables): 指无法直接观测但决定数据分布的底层特征或结构,类似柏拉图洞穴寓言中投射影子的真实物体。生成式建模的关键任务之一就是从观测数据中捕捉和提取这些隐变量。
变分自编码器(VAE): 在传统自编码器基础上引入随机性,将隐变量z参数化为概率分布(由均值μ和标准差σ定义),通过KL散度正则化使其服从先验分布(如N(0,1)),确保隐空间的连续性和完备性,使模型能够生成有意义的全新样本。
生成对抗网络(GAN): 由生成器和判别器两个竞争网络组成,生成器从噪声生成假数据试图欺骗判别器,判别器努力区分真假数据,通过这种对抗训练(Minimax博弈)使生成器逐步逼近真实数据分布,最终达到纳什均衡。
重参数化技巧(Reparameterization Trick): VAE训练中的关键技术,通过将采样操作转换为z = μ + σ·ε的形式(其中ε服从标准正态分布),将随机性从网络中分离,使梯度能够正常反向传播,从而实现端到端的可微分训练。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | MIT 6.S191 (2025)- 4深度生成式建模 |
| 作者 | |
| 发表日期 | 2025-04-01T16:04:00+00:00 |
此摘要卡片由 AI 自动生成