Austin Lyons · 2025-09-02

GPU 网络基础（第一部分）

摘要

训练大型语言模型需要海量算力，单GPU训练可能耗时16年。为缩短训练周期，必须让大量GPU协同工作并相互通信。本文探讨了GPU集群网络连接的核心挑战：从理想但不切实际的全网状连接，到实用的叶脊（Leaf-Spine）分层交换架构；从通过添加更多GPU和交换机的横向扩展，到增加单节点GPU数量的纵向扩展策略，揭示了大规模AI训练背后的网络工程奥秘。

内容框架与概述

文章以一个生动的计算开篇：单GPU训练达到10²⁴ FLOPs需要约16年，这解释了为何需要大量GPU并行工作以及它们之间高效通信的必要性。作者以xAI的20万GPU集群为例，逐步引出网络拓扑设计的核心问题。

接下来，文章分析了不同网络方案的可行性。全网状网络虽然理想但需要约200亿根线缆，显然不可行；单一交换机方案将线缆减至20万根，但需要20万端口的超级交换机同样不现实。最终引出叶脊架构——通过分层交换机组织网络，在可管理的规模和成本下实现GPU互联，代价是跨分支通信需要额外跳数带来的延迟。

文章最后区分了横向扩展与纵向扩展两种策略。横向扩展通过InfiniBand或以太网添加更多GPU和交换机，但会增加延迟和功耗；纵向扩展则是在单个服务器节点内集成多个GPU，利用节点内专用互连技术实现更快的通信带宽，从而引出节点内（intra-node）与节点间（inter-node）通信的重要区别。

核心概念及解读

叶脊架构（Leaf-Spine Architecture）：一种两层Clos网络拓扑，叶交换机直接连接计算设备，脊交换机连接各叶交换机。这种分层设计避免了单一巨型交换机的不可行性，但跨分支通信需要经过多跳，会引入额外延迟。

横向扩展（Scale Out）：通过添加更多GPU和网络交换机来扩展集群，使用InfiniBand或以太网进行GPU间通信。InfiniBand因低延迟高带宽历史上更受青睐，但以太网（如Nvidia Spectrum X）正成为新建集群的主流选择。

纵向扩展（Scale Up）：通过增加单个节点的计算能力而非增加节点数量来提升性能，例如在一台服务器中集成8个GPU，减少所需的交换机和线缆数量。

节点内/节点间通信（Intra-node/Inter-node）：节点内通信指同一服务器内GPU之间的数据交换，因物理距离近且使用专用互连技术，速度和带宽优于节点间通信；节点间通信则依赖InfiniBand或以太网连接不同服务器的GPU。

原文信息

字段	内容
原文	GPU Networking Basics, Part 1
作者	Austin Lyons
发表日期	2025-03-20

此摘要卡片由 AI 自动生成

‹

Intel 申请软件定义超核心专利

Anton Shilov · 2025-09-02

Flexoki 配色方案设计

Steph Ango · 2025-09-02

›

GPU 网络基础（第一部分）

摘要

内容框架与概述

核心概念及解读

原文信息

目录