comma.ai blog · 2026-02-04

如何用500万美元打造自己的机器学习数据中心

摘要

本文是comma.ai联合创始人Harald Schäfer撰写的技术博客,分享了公司自建数据中心的经验与设计思路。文章解释了为何选择自建而非云服务,强调自主计算能带来更好的成本控制和工程激励。详细介绍了数据中心的关键组件:450kW电力系统、采用外部空气的冷却方案、600块GPU组成的训练集群、基于minikeyvalue的分布式存储,以及使用slurm和miniray进行工作负载管理。作者指出,自建数据中心的总成本约500万美元,而同等规模的云计算支出将超过2500万美元。

内容框架与概述

文章开篇从战略层面论证自建数据中心的必要性,指出云计算虽然初期便利但会让企业陷入高成本陷阱,而自主计算不仅能显著降低成本,还能激励工程师优化代码效率而非依赖算力堆砌。随后,作者以工程技术视角逐一拆解数据中心的核心模块,包括电力系统配置、冷却方案设计、服务器硬件选型与网络架构,每个部分都提供了具体的技术参数和成本数据。在软件层面,文章重点介绍了三套自研系统:用于高速存储的minikeyvalue分布式存储系统、基于slurm的工作负载调度框架,以及轻量级任务调度器miniray,这些工具共同支撑着大规模机器学习训练和分布式计算任务。文章最后以一次完整的端到端训练任务为例,展示所有基础设施如何协同工作,并呼吁读者考虑自建数据中心。

核心概念及解读

自主计算:企业自行建设和运营数据中心,而非依赖公有云服务。这种方式能避免云厂商锁定并降低长期成本。

外部空气冷却:利用外界冷空气进行数据中心制冷,相比传统CRAC系统能耗更低,适用于温和气候地区。

minikeyvalue:comma.ai自研的分布式键值存储系统,专为大规模机器学习数据设计,支持超高吞吐量的随机访问读取。

分布式训练:利用多台GPU服务器通过高速网络协同完成模型训练,文章中使用PyTorch FSDP和InfiniBand互连实现跨节点并行。

miniray:comma.ai开源的轻量级分布式任务调度框架,简化了在数百台机器上运行任意Python计算任务的流程。


原文信息

字段内容
原文Owning a $5M data center
作者comma.ai blog
发表日期2026-02-04

此摘要卡片由 AI 自动生成