知乎作者 · 2025-01-10

GPU与CUDA简介

摘要

本文是一篇关于GPU与CUDA基础知识的系统介绍，从计算机基础概念出发，逐步深入到GPU硬件架构和CUDA编程模型。文章首先讲解了计算机基础知识，包括IO设备、CPU与内存、并行与并发、编译器以及堆与栈等核心概念。接着详细介绍GPU的基础知识，包括GPU作为计算设备的特性、流多处理器执行单元、GPU产品架构分类以及GPU内存层级结构。最后重点阐述CUDA编程平台和模型，涵盖CUDA编程基础、线程模型、内存管理和nvcc编译器等内容。整篇文章为理解GPU并行计算和CUDA编程提供了完整的知识框架。

内容框架与概述

文章采用递进式的知识结构，从计算机基础到GPU专业知识，再到CUDA编程实践，形成了完整的学习路径。第一部分计算机基础知识为后续内容奠定基础，帮助读者理解CPU、内存、并行并发等核心概念。第二部分GPU基础知识介绍GPU的独特架构和计算优势，特别是流多处理器SM的设计使GPU能够大规模并行执行任务。第三部分CUDA编程基础是文章的核心内容，详细解释了CUDA的线程模型、内存管理和编译流程。

文章强调GPU与CPU的根本区别在于并行计算能力。一个CPU核心在同一时间点只能执行一个任务，而一个GPU的流多处理器SM可以同时执行多达32个任务。这种设计使GPU在处理大规模并行计算任务时具有显著优势，特别适合深度学习、科学计算等领域。CUDA作为英伟达推出的通用并行计算平台和编程模型，为开发者提供了使用GPU进行并行计算的标准化方法。

文章还指出计算机知识体系的特点是会抽象出很多概念帮助读者理解，但真实运作方式往往更加复杂。计算机领域从业者喜欢"起名"来突出产品亮点，这在GPU和CUDA的术语体系中表现得尤为明显。

核心概念及解读

流多处理器SM：GPU的基本执行单元，是GPU实现大规模并行计算的关键。一个SM在同一时间点最多可以执行32个任务，而一个CPU Core只能执行1个任务。SM中包含多个CUDA Core作为实际运算单元，这种设计使GPU能够同时处理大量并行任务。

CUDA线程模型：CUDA编程的核心概念，采用嵌套式结构。多个线程构成线程块，多个线程块构成网格。Grid和Block可以是一维、二维或三维数组结构。在核函数中，通过gridDim、blockIdx、blockDim、threadIdx等对象来管理和协调线程的执行。

GPU内存层级：GPU的内存系统采用多级缓存结构，从高到低依次是寄存器文件、L1 Cache、L2 Cache和DRAM。寄存器文件和L1 Cache属于片上内存，存在于SM上；L2 Cache和DRAM属于片外内存。当寄存器内存不足时会发生溢出，溢出部分称为本地内存。共享内存存在于L1 Cache之上，供同一个block中的所有线程访问，用于减少访问高带宽内存HBM的次数。

主机与设备：在GPU编程中，将计算机称为主机，GPU称为设备。两者之间是异步执行关系，通过PCIe总线连接。CUDA编程需要明确区分主机函数和设备函数，使用__host__和__device__修饰符来标识。

nvcc编译器：CUDA程序的专用编译器，编译时将代码分为主机代码和设备代码。主机代码的编译过程与gcc类似，设备代码会先转换成PTX伪汇编代码，再编译成cubin形式的目标代码。这种分离式编译设计使得CUDA能够充分利用GPU的并行计算能力。