2025-04-01

MIT 6.S191：深度序列建模——从RNN到Transformer

摘要

本文是MIT 6.S191课程第二讲的详细笔记，系统阐述了深度序列建模的核心技术。讲座从处理时序数据的基本需求出发，介绍了循环神经网络（RNN）如何通过内部状态传递历史信息，探讨了其训练方法（BPTT）及梯度消失问题。在此基础上，重点讲解了注意力机制的Query-Key-Value架构，以及完全基于注意力构建的Transformer模型如何克服RNN的局限性，成为现代大型语言模型的基石。

内容框架与概述

讲座开篇以预测球的运动轨迹为例，生动引入了序列建模的核心概念：利用历史信息预测未来。作者指出序列数据广泛存在于音频、文本、医学信号、金融数据、生物序列等领域，并归纳了序列建模的三类任务范式：多对一（如情感分类）、一对多（如图像描述）和多对多（如机器翻译、下一词预测）。

在技术实现层面，讲座首先从前馈神经网络的局限性谈起，逐步推导出RNN的核心思想——通过内部状态在时间步之间传递记忆。作者详细解释了RNN的递归关系、权重共享特性，以及按时间展开的可视化方式，并提供了从伪代码到TensorFlow实现的完整示例。问答环节进一步澄清了隐藏层内部连接的机制。随后，讲座指出了RNN面临的三大挑战：梯度消失与爆炸、固定大小隐藏状态的信息瓶颈、难以并行化处理的计算效率问题。

为了解决这些局限，讲座转向注意力机制的现代方法。通过类比人类视觉和信息检索系统，作者引入了Query、Key、Value的核心概念，解释了自注意力如何捕捉序列内部的依赖关系。讲座详细阐述了Transformer架构的实现步骤：位置编码、线性变换生成QKV、注意力权重计算（相似度加Softmax）、以及加权求和输出。这种完全基于注意力的架构不仅实现了并行计算，更擅长捕捉长距离依赖，成为当前先进模型包括大型语言模型的基础。

核心概念及解读

循环神经网络（RNN）：一种通过内部状态在时间步之间传递历史信息的神经网络架构，使用递归关系和权重共享机制处理序列数据，但面临梯度消失和并行化困难的挑战。

词嵌入（Embeddings）：将文本等非数值序列转换为神经网络可处理的数值表示的方法，通过词汇表建立从词语到索引再到固定大小向量的映射，是语言建模的关键技术。

注意力机制（Attention）：借鉴信息检索思想的技术，通过Query、Key、Value三要素动态关注输入的相关部分，克服了RNN的信息瓶颈问题，使模型能够直接访问整个输入序列。

自注意力（Self-Attention）：Q、K、V均来自同一输入序列的注意力变体，用于捕捉序列内部的依赖关系，是Transformer架构的核心组件。

时间反向传播（BPTT）：RNN的训练方法，将网络按时间步展开后进行反向传播，通过对所有时间步的损失求和来更新权重。

原文信息

字段	内容
原文	MIT 6.S191 (2025)- 2深度序列模型：RNN，Transformers与注意力机制
作者
发表日期	2025-04-01

此摘要卡片由 AI 自动生成

‹

MacBook Air M4 与 Mac Mini M4 产品调研对比报告

2025-04-01

MIT 6.S191：卷积神经网络与计算机视觉入门

2025-04-01

›

MIT 6.S191：深度序列建模——从RNN到Transformer

摘要

内容框架与概述

核心概念及解读

原文信息

目录