AI推理的环境影响测量与优化
摘要
本文详细介绍了Google对AI推理过程环境影响的系统性测量与优化方法。Google首次公开了Gemini模型推理的能耗、碳排放和用水量数据,并提出了业界最全面的测量框架。数据显示,采用全栈优化策略后,Gemini Apps文本推理的单次能耗为0.24瓦时,碳排放为0.03克二氧化碳当量,用水量为0.26毫升,远低于外界普遍估算。
内容框架与概述
文章首先阐述了AI推理环境影响测量的重要性。随着AI应用的普及,推理环节的能耗和环境影响日益凸显。Google指出,传统测算方法仅考虑活跃计算能耗,忽略了系统实际运营中的诸多关键因素,导致测量结果偏乐观,无法反映真实的环境足迹。
Google提出的全面测量方法涵盖四个维度:动态全系统能耗(包括闲置算力)、CPU与内存能耗、数据中心基础设施能耗(以PUE指标衡量),以及数据中心用水量。以Gemini Apps文本推理为例,采用全面测量方法后的能耗是传统方法的2.4倍,更能反映真实环境影响。
在优化策略方面,Google采用"全栈"优化方法,涵盖模型架构、算法、硬件、软件和数据中心运营等各个层面。模型架构基于自研Transformer架构,配合专家混合和混合推理结构,效率提升10-100倍。硬件方面,自研TPU已迭代十余年,最新一代能效比首代提升30倍。软件层面,XLA ML编译器、Pallas内核和Pathways系统确保高级框架高效运行。数据中心平均PUE仅1.09,处于行业领先水平。
Google强调,AI推理环境影响的测量必须覆盖全流程,需软硬件协同优化,并根据实时需求动态调度资源。公司承诺持续推动AI绿色发展,目标是实现24/7碳中和运营,并平均补偿消耗水量的120%。
核心概念及解读
动态全系统能耗测量:Google提出的环境影响测量方法不仅统计模型活跃计算时的能耗,还考虑芯片在生产环境下的实际利用率。由于高可用性和可靠性要求,系统需预留部分闲置算力以应对流量波动或故障转移,这部分闲置芯片的能耗也需计入总能耗,使测量结果更接近真实环境足迹。
专家混合架构(Mixture-of-Experts):这是一种模型架构设计,能根据具体请求激活模型的部分子模块,而非每次都激活整个模型。这种设计减少了不必要的计算和数据传输,使推理效率提升10-100倍,是降低能耗的关键技术之一。
PUE(电源使用效率):这是衡量数据中心能效的重要指标,定义为数据中心总能耗与IT设备能耗的比值。Google数据中心平均PUE仅1.09,意味着每消耗1度电用于IT设备,仅需额外0.09度电用于冷却等基础设施,处于行业领先水平。
投机解码(Speculative Decoding):这是一种推理优化技术,先用小模型快速预测结果,再由大模型进行验证。这种方法减少了大模型的重复计算,在保证响应质量的前提下显著降低推理能耗。
24/7碳中和运营:这是Google提出的数据中心运营目标,即在任何时刻都使用清洁能源供电,而非仅在年度层面实现碳中和。这一目标比传统碳中和标准更为严格,需要持续增加清洁能源供给并优化能源调度。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | Measuring the environmental impact of AI inference |
| 作者 | Jeff Dean |
| 发表日期 | 2025年8月 |
此文档由 AI 自动整理