@karpathy · 2026-02-01

FP8训练GPT-2的实践与成本优化

摘要

Andrej Karpathy 分享了在 H100 GPU 上使用 FP8 精度训练 GPT-2 的经验。他将训练时间缩短至 2.91 小时,成本控制在约 20 美元。然而,他指出 FP8 的实际加速效果受到模型规模限制,小模型的 overhead 往往抵消了精度提升带来的收益。对比 Llama3-8B 可达 25% 提升,GPT-2 仅获得约 5% 速度改善,表明 FP8 训练更适合大规模模型。

内容框架与概述

文章分为三个主要部分。首先,Karpathy 宣布了使用 FP8 训练 GPT-2 的里程碑式成果,展示了 AI 训练成本的大幅下降趋势,曾被视作危险模型的 GPT-2 如今已成为经济实惠的训练基准。其次,他深入分析了 FP8 训练的技术挑战,指出纸上 2X FLOPS 的理论优势在实践中难以完全兑现,因为实际运行并非完全受计算约束,且小模型的 GEMM 规模不足以体现 FP8 的优势。最后,他比较了 rowwise 和 tensorwise 两种 scaling 方案的效果,并提出通过增加训练步数来补偿精度损失的方法,同时展望了通过选择性应用 FP8 和更精细的数值优化来进一步提升性能的可能性。

核心概念及解读

FP8训练:使用 8 位浮点数进行神经网络训练的技术,可降低计算精度以换取更高的计算效率。梯度累积:通过增加训练步数来弥补单步精度下降带来的质量损失,是一种补偿性训练策略。GEMM优化:通用矩阵乘法优化,FP8 加速效果取决于矩阵规模,小模型的 overhead 往往超过精度收益。Scaling Recipe:缩放配方,包括 rowwise 和 tensorwise 两种方式,用于处理 FP8 训练中的数值精度问题。H100 GPU:NVIDIA 的高端数据中心 GPU,其 FP8 计算单元提供理论 2X FLOPS 性能提升。


原文信息

字段内容
原文Thread by @karpathy
作者@karpathy
发表日期2026-02-01

此摘要卡片由 AI 自动生成