The Architect’s Notebook · 2026-02-07

延迟与吞吐量：系统设计的核心权衡

摘要

本文剖析系统性能中延迟与吞吐量的本质差异。延迟是单个请求的响应时间，吞吐量是系统的并行处理能力。关键洞见在于两者相互制约——增加吞吐量会导致请求排队，反而延长延迟。文章强调真正的系统设计在于根据业务目标（如用户体验vs容量成本）做出合理权衡，并以Redis（优化延迟）和Kafka（优化吞吐量）为例说明不同系统的优化策略。

内容框架与概述

文章开篇指出大多数工程师对延迟和吞吐量的理解停留在表面定义，缺乏对实际系统行为的深入认识。作者批评这种"教科书式"回答在真实场景中毫无价值，因为这两个指标在实际系统中存在根本性的对立关系。

文章随后分别阐述两个概念的含义。延迟关注单个请求的完成速度，直接影响用户体验；吞吐量则衡量系统的并发处理能力，决定整体容量。当吞吐量不足时，系统会出现队列积压、CPU饱和等问题。两者的关系可类比为餐厅营业：增加顾客数量（提高吞吐量）若不同步增加厨师（系统资源），反而会导致所有顾客等待更久（延迟增加）。

文章最后强调系统设计本质上是权衡问题。不同系统根据业务目标做出不同选择：Redis追求极致低延迟，Kafka专注高吞吐量，支付系统则优先保证正确性。这一框架帮助工程师在实际工作中做出更明智的性能优化决策。