/ Highlights
/ 全栈最小管线
一个脚本、单次运行。从头构建的简单 ChatGPT 克隆体,覆盖 分词器训练 到 SFT、RL,以及带 WebUI 的 高效推理。代码量约 8,000 行,但极其简洁、可读、最小依赖。
/ 低成本可达性
最低成本仅需 约 $100,在 8x H100 节点上训练 4 小时,即可获得一个可对话的 LLM。训练 12 小时可超越 GPT-2 CORE 指标。进一步投入至 $1000 成本(41.6 小时)即可获得更连贯、可解简单问题的模型。
/ 坚实基线骨架
目标是建立一个 "强大的基线" 全栈模型,使其成为可黑客攻击、易于 Fork 的研究/基准测试平台。将作为 LLM101n 课程的 压轴项目。
/ Methods
/ 训练流程
分词器 (Rust 实现) → 预训练 (FineWeb) → 中途训练 (SmolTalk、多选、工具使用) → SFT (Supervised Fine-Tuning) → 可选的 RL 强化学习 (GRPO)。
/ 推理与工具
高效 推理引擎,支持 KV Cache、Prefill/Decode。内置 工具使用(轻量级沙盒 Python 解释器)。提供 CLI 或 类 ChatGPT WebUI 两种交互模式。
/ 评估与报告
通过 CORE、MMLU (多选)、ARC-E/C (世界知识)、GSM8K (数学)、HumanEval (代码) 等指标进行全面评估。自动生成一个单一的 Markdown 报告卡,总结并游戏化整个训练过程。