@karpathy · 2026-02-01

FP8训练GPT-2的实践与成本优化

摘要

Andrej Karpathy 分享了在 H100 GPU 上使用 FP8 精度训练 GPT-2 的经验。他将训练时间缩短至 2.91 小时，成本控制在约 20 美元。然而，他指出 FP8 的实际加速效果受到模型规模限制，小模型的 overhead 往往抵消了精度提升带来的收益。对比 Llama3-8B 可达 25% 提升，GPT-2 仅获得约 5% 速度改善，表明 FP8 训练更适合大规模模型。

内容框架与概述

文章分为三个主要部分。首先，Karpathy 宣布了使用 FP8 训练 GPT-2 的里程碑式成果，展示了 AI 训练成本的大幅下降趋势，曾被视作危险模型的 GPT-2 如今已成为经济实惠的训练基准。其次，他深入分析了 FP8 训练的技术挑战，指出纸上 2X FLOPS 的理论优势在实践中难以完全兑现，因为实际运行并非完全受计算约束，且小模型的 GEMM 规模不足以体现 FP8 的优势。最后，他比较了 rowwise 和 tensorwise 两种 scaling 方案的效果，并提出通过增加训练步数来补偿精度损失的方法，同时展望了通过选择性应用 FP8 和更精细的数值优化来进一步提升性能的可能性。

核心概念及解读

FP8训练：使用 8 位浮点数进行神经网络训练的技术，可降低计算精度以换取更高的计算效率。梯度累积：通过增加训练步数来弥补单步精度下降带来的质量损失，是一种补偿性训练策略。GEMM优化：通用矩阵乘法优化，FP8 加速效果取决于矩阵规模，小模型的 overhead 往往超过精度收益。Scaling Recipe：缩放配方，包括 rowwise 和 tensorwise 两种方式，用于处理 FP8 训练中的数值精度问题。H100 GPU：NVIDIA 的高端数据中心 GPU，其 FP8 计算单元提供理论 2X FLOPS 性能提升。