2025-04-01

MIT 6.S191深度强化学习讲座实录:从Q-Learning到策略梯度

摘要

本文是MIT深度学习课程第五讲的实录,系统介绍了深度强化学习(DRL)的核心概念、算法范式和应用案例。文章详细阐述了强化学习如何通过智能体与环境的动态交互实现学习,区别于传统的监督学习和无监督学习。重点讲解了两大类DRL方法:基于价值学习的Q-Learning(以DQN为代表)和基于策略学习的Policy Gradients,并分析了它们在处理离散动作与连续动作空间时的优势差异。最后通过Atari游戏、自动驾驶仿真和AlphaGo等案例展示了DRL的实际应用潜力与挑战。

内容框架与概述

讲座开篇即明确了深度强化学习的定位——深度学习与强化学习的交叉领域,强调其通过动态交互而非静态数据集进行学习的本质特征。文章首先回顾了三种学习范式:监督学习、无监督学习和强化学习,并用"苹果识别"、“苹果聚类"和"苹果生存"三个类比生动说明了三者的区别。接着系统梳理了强化学习的核心术语体系,包括智能体、环境、动作、状态、奖励、回报以及关键的Q函数,特别强调了回报是对未来折扣奖励的累积,这是强化学习能够进行长期规划的关键。

主体部分深入探讨了两类核心算法实现路径。第一类是基于价值的Q-Learning方法,通过学习Q函数来评估每个状态-动作对的预期回报,然后用神经网络(Deep Q-Networks, DQN)来逼近这个函数。文章以Atari Breakout游戏为例,生动展示了训练出的DQN如何发现"侧面击球"这一反直觉但更优的策略,说明了深度强化学习能够超越人类直觉。第二类是基于策略的Policy Gradients方法,直接学习策略函数π(s)来输出动作概率分布,特别适合处理连续动作空间(如自动驾驶中的转向、加速等控制信号)。

文章最后通过两个高级应用案例展示了DRL的潜力:自动驾驶需要在高保真仿真环境中进行大量训练以应对现实世界的复杂性;AlphaGo则巧妙融合了监督学习(模仿人类棋谱)、强化学习(自我对弈)、价值网络(评估局面)和蒙特卡洛树搜索等多种技术,最终在围棋这一古老游戏中取得突破性胜利。

核心概念及解读

Q函数:定义在状态s下执行动作a的预期未来回报总和。它是连接"学习价值"与"做出决策"的桥梁——一旦拥有Q函数,最优策略就变成了简单的argmax运算。值得注意的是,Q函数优化的是大写R(Return)而非小写r(Reward),因此能够捕捉为了长期利益而短期牺牲的行为模式。

回报与奖励:奖励r_t是环境在时刻t给出的即时反馈信号;而回报R_t是从时刻t到未来所有折扣奖励的累加和,R_t = r_t + γr_{t+1} + γ²r_{t+2} + …。折扣因子γ∈[0,1)反映了模型对当前奖励的偏好程度,γ越接近1表示越重视长期收益。

策略函数:直接映射状态到动作(或动作概率分布)的函数π(s)。与Q-Learning间接推导策略不同,Policy Gradients方法直接学习π(s),其优势是可以自然处理连续动作空间(如自动驾驶中的连续控制信号)并支持随机性策略以增强探索能力。

DQN训练机制:用神经网络拟合Q函数,输入状态(如图像帧),输出所有可能动作的Q值。训练时使用贝尔曼思想计算目标Q值:Target Q = r + γ max_a’ Q(s’, a’),然后通过最小化预测Q值与目标Q值的均方误差来更新网络参数。实际应用中常结合经验回放和目标网络来稳定训练。


原文信息

字段内容
原文MIT 6.S191 (2025)- 5强化学习
作者
发表日期2025-04-01T14:23:00+00:00

此摘要卡片由 AI 自动生成