MIT 6.S191:深度序列建模——从RNN到Transformer
摘要
本文是MIT 6.S191课程第二讲的详细笔记,系统阐述了深度序列建模的核心技术。讲座从处理时序数据的基本需求出发,介绍了循环神经网络(RNN)如何通过内部状态传递历史信息,探讨了其训练方法(BPTT)及梯度消失问题。在此基础上,重点讲解了注意力机制的Query-Key-Value架构,以及完全基于注意力构建的Transformer模型如何克服RNN的局限性,成为现代大型语言模型的基石。
内容框架与概述
讲座开篇以预测球的运动轨迹为例,生动引入了序列建模的核心概念:利用历史信息预测未来。作者指出序列数据广泛存在于音频、文本、医学信号、金融数据、生物序列等领域,并归纳了序列建模的三类任务范式:多对一(如情感分类)、一对多(如图像描述)和多对多(如机器翻译、下一词预测)。
在技术实现层面,讲座首先从前馈神经网络的局限性谈起,逐步推导出RNN的核心思想——通过内部状态在时间步之间传递记忆。作者详细解释了RNN的递归关系、权重共享特性,以及按时间展开的可视化方式,并提供了从伪代码到TensorFlow实现的完整示例。问答环节进一步澄清了隐藏层内部连接的机制。随后,讲座指出了RNN面临的三大挑战:梯度消失与爆炸、固定大小隐藏状态的信息瓶颈、难以并行化处理的计算效率问题。
为了解决这些局限,讲座转向注意力机制的现代方法。通过类比人类视觉和信息检索系统,作者引入了Query、Key、Value的核心概念,解释了自注意力如何捕捉序列内部的依赖关系。讲座详细阐述了Transformer架构的实现步骤:位置编码、线性变换生成QKV、注意力权重计算(相似度加Softmax)、以及加权求和输出。这种完全基于注意力的架构不仅实现了并行计算,更擅长捕捉长距离依赖,成为当前先进模型包括大型语言模型的基础。
核心概念及解读
循环神经网络(RNN):一种通过内部状态在时间步之间传递历史信息的神经网络架构,使用递归关系和权重共享机制处理序列数据,但面临梯度消失和并行化困难的挑战。
词嵌入(Embeddings):将文本等非数值序列转换为神经网络可处理的数值表示的方法,通过词汇表建立从词语到索引再到固定大小向量的映射,是语言建模的关键技术。
注意力机制(Attention):借鉴信息检索思想的技术,通过Query、Key、Value三要素动态关注输入的相关部分,克服了RNN的信息瓶颈问题,使模型能够直接访问整个输入序列。
自注意力(Self-Attention):Q、K、V均来自同一输入序列的注意力变体,用于捕捉序列内部的依赖关系,是Transformer架构的核心组件。
时间反向传播(BPTT):RNN的训练方法,将网络按时间步展开后进行反向传播,通过对所有时间步的损失求和来更新权重。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | MIT 6.S191 (2025)- 2深度序列模型:RNN,Transformers与注意力机制 |
| 作者 | |
| 发表日期 | 2025-04-01 |
此摘要卡片由 AI 自动生成