@karpathy · 2025-10-23

扩散 vs 自回归:文本生成的两种范式

摘要

Andrej Karpathy在这篇帖子中对比了文本生成的两大范式:扩散模型与自回归模型。扩散模型采用并行迭代去噪方式,通过双向注意力机制刷新整个"token画布";而自回归模型则按顺序逐个生成token。讨论还涉及扩散模型与BERT掩蔽语言模型的关联,以及扩散模型在相同数据量下可能优于自回归模型的实证证据。

内容框架与概述

文章开篇由Karpathy对文本扩散模型的简洁性进行阐述,指出虽然扩散模型在图像和视频生成领域已成为主流范式,但文本生成仍以自回归模型为主导。他强调,剥离数学形式后,扩散模型的核心其实相当简单——使用双向注意力的标准Transformer,按噪声调度迭代重采样和重掩蔽所有token。

Karpathy进一步用编程类比阐明两者的本质差异:自回归模型是对token画布执行"append"操作并仅向后注意,而扩散模型则是通过"setitem"刷新整个画布并进行双向注意。他还提出一个有趣的认知类比——人类思维表面上更像自回归过程,但在某些潜在空间中可能存在扩散式的成分,两种范式之间或许可以进一步融合与泛化。

讨论中Nathan Barry指出扩散模型的训练目标实际上是BERT掩蔽语言模型的推广,建立了新旧方法之间的理论桥梁。Jinjie Ni则提供了实证支持,表明扩散模型在相同数据量下可优于自回归模型。尽管训练成本较高,但其并行处理能力和生成质量使其成为值得深入研究的方向。

核心概念及解读

扩散模型(Diffusion Models):一种通过并行迭代去噪生成内容的范式,在文本生成中使用双向注意力机制反复刷新整个token序列,直至生成最终样本。

自回归模型(Autoregressive Models):按顺序从左到右逐个生成token的主流文本生成方法,仅使用单向(向后)注意力机制,训练效率高但上下文建模受限。

双向注意力(Bi-directional Attention):允许模型同时关注序列中所有位置的注意力机制,比单向注意力更强大,但因无法在序列维度并行化而导致训练成本显著增加。

掩蔽语言模型(MLM):BERT使用的预训练任务,随机遮蔽部分token并预测它们,被认为是文本扩散模型训练目标的特例或基础形式。

Token画布(Token Canvas):Karpathy用于描述文本生成过程的直观比喻,扩散模型通过反复刷新整个画布来生成文本,而自回归模型则是逐步向画布追加内容。


原文信息

字段内容
原文Thread by @karpathy
作者@karpathy
发表日期2025-10-21

此摘要卡片由 AI 自动生成