@karpathy · 2025-10-21

扩散 vs 自回归：文本生成的两种范式

摘要

Andrej Karpathy在这篇帖子中对比了文本生成的两大范式：扩散模型与自回归模型。扩散模型采用并行迭代去噪方式，通过双向注意力机制刷新整个"token画布"；而自回归模型则按顺序逐个生成token。讨论还涉及扩散模型与BERT掩蔽语言模型的关联，以及扩散模型在相同数据量下可能优于自回归模型的实证证据。

内容框架与概述

文章开篇由Karpathy对文本扩散模型的简洁性进行阐述，指出虽然扩散模型在图像和视频生成领域已成为主流范式，但文本生成仍以自回归模型为主导。他强调，剥离数学形式后，扩散模型的核心其实相当简单——使用双向注意力的标准Transformer，按噪声调度迭代重采样和重掩蔽所有token。

Karpathy进一步用编程类比阐明两者的本质差异：自回归模型是对token画布执行"append"操作并仅向后注意，而扩散模型则是通过"setitem"刷新整个画布并进行双向注意。他还提出一个有趣的认知类比——人类思维表面上更像自回归过程，但在某些潜在空间中可能存在扩散式的成分，两种范式之间或许可以进一步融合与泛化。

讨论中Nathan Barry指出扩散模型的训练目标实际上是BERT掩蔽语言模型的推广，建立了新旧方法之间的理论桥梁。Jinjie Ni则提供了实证支持，表明扩散模型在相同数据量下可优于自回归模型。尽管训练成本较高，但其并行处理能力和生成质量使其成为值得深入研究的方向。

核心概念及解读

扩散模型（Diffusion Models）：一种通过并行迭代去噪生成内容的范式，在文本生成中使用双向注意力机制反复刷新整个token序列，直至生成最终样本。

自回归模型（Autoregressive Models）：按顺序从左到右逐个生成token的主流文本生成方法，仅使用单向（向后）注意力机制，训练效率高但上下文建模受限。

双向注意力（Bi-directional Attention）：允许模型同时关注序列中所有位置的注意力机制，比单向注意力更强大，但因无法在序列维度并行化而导致训练成本显著增加。

掩蔽语言模型（MLM）：BERT使用的预训练任务，随机遮蔽部分token并预测它们，被认为是文本扩散模型训练目标的特例或基础形式。

Token画布（Token Canvas）：Karpathy用于描述文本生成过程的直观比喻，扩散模型通过反复刷新整个画布来生成文本，而自回归模型则是逐步向画布追加内容。

原文信息

字段	内容
原文	Thread by @karpathy
作者	@karpathy
发表日期	2025-10-21

此摘要卡片由 AI 自动生成

‹

Claude Code 网页版

@AnthropicAI · 2025-10-21

AI加密货币交易竞赛：六大AI交易员风格分析

2025-10-20

›

扩散 vs 自回归：文本生成的两种范式

摘要

内容框架与概述

核心概念及解读

原文信息

目录