Andrej Karpathy
·
2025-10-13
nanochat - 信息卡
Andrej Karpathy 推出了“nanochat”,这是一个极其精简的全栈大语言模型(LLM)训练与推理管线。作为他写过的最“出格”的项目之一,nanochat 旨在用最少的代码量(约 8,000 行)和最强的可读性,复刻一个类似 ChatGPT 的完整流程。它不仅是一个技术展示,更是一个为了建立“强大基线”而设计的骨架,旨在成为研究者、黑客以及 LLM101n 课程中易于 Fork 和迭代的压轴项目。
该项目最大的亮点在于其极低的准入门槛和完整的工程实现。用户仅需约 100 美元的成本,在 8x H100 节点上训练 4 小时,即可获得一个可对话的模型;若投入 12 小时,性能甚至可超越 GPT-2 的 CORE 指标。整个管线完全打通了从 Rust 实现的 BPE 分词器、基于 FineWeb 的预训练、到中途训练(SmolTalk)、监督微调(SFT)乃至强化学习(GRPO)的各个环节,并配备了带 KV Cache 的高效推理引擎和自动化的评估报告卡,真正实现了从训练到部署的闭环。