宝玉 (@dotey) · 2026-02-18

Jeff Dean 深度访谈:一页备忘录如何催生 Gemini 与 Google AI 的未来

摘要

Jeff Dean(Google 第 30 号员工、现任首席科学家)在 Latent Space 播客中回顾了从 Google Brain 到 Gemini 的完整历程。他揭示了蒸馏技术源于 50 个专家模型的部署困境,阐释了 GPU 批处理的皮焦耳能量物理原理,提出长上下文的终极目标是让注意力覆盖整个互联网的分层漏斗架构,并首次披露一份一页纸备忘录如何直接推动 Google Brain 与 DeepMind 合并,进而诞生 Gemini。

内容框架与概述

访谈以 Gemini 的双轨战略为切入点:前沿 Pro 模型负责探索能力边界,轻量 Flash 模型主攻大规模部署。二者通过蒸馏技术相互依存——没有前沿大模型,就无法蒸馏出高质量的小模型。Flash 已在 Gmail、YouTube、Google 搜索 AI Mode 中累计处理超 50 万亿 token,其低延迟特性正是未来复杂 Agent 任务的核心依赖。

在技术纵深层面,Jeff Dean 以皮焦耳为单位解释了批处理存在的物理必然性:矩阵乘法约 1 皮焦耳,而从 SRAM 搬运一个参数需要 1000 皮焦耳,三个数量级的差距决定了批大小不能为 1。他同时描绘了长上下文的终极架构愿景:仿照 Google 搜索排名管道的分层漏斗,从万亿 token 中逐层过滤,最终由强模型精读少量核心文档。

历史叙事部分最具戏剧性。2011 年微型厨房偶遇 Andrew Ng,促成 Google Brain 以 16,000 个 CPU 核心训练 20 亿参数模型,确立了规模化方向。而多年后,Jeff Dean 以一份一页纸备忘录点名批评 Google Research、Brain 与 DeepMind 三路分兵之愚蠢,直接推动了 Google Brain 与 DeepMind 的合并,Gemini 这一命名本身即寓意双子合一与登月前夕。

展望未来,Jeff Dean 认为最关键的开放问题是让强化学习在非可验证领域奏效,并预测 10,000 token/秒将成为有意义目标——不是为了输出更多代码,而是用 9000 token 深度推理后输出 1000 token 精炼结论。IMO 数学竞赛从 2024 年专用系统拼银牌,到 2025 年 Gemini 以自然语言直接摘金,正是统一模型时代到来的缩影。

核心概念及解读

模型蒸馏(Knowledge Distillation):用大模型输出的概率分布(logits)而非硬标签训练小模型,使小模型习得大模型的微妙推理能力,源于解决 50 个专家模型无法部署的工程难题。

分层漏斗长上下文架构(Hierarchical Long-Context Architecture):因注意力机制的二次方复杂度在百万 token 处触及极限,Jeff Dean 提出仿照搜索排名管道的多级过滤架构,从万亿 token 逐层缩减至百篇精读,以实现注意力覆盖整个互联网的终极目标。

皮焦耳能量原理(Picojoule Energy Principle):矩阵乘法约 1 皮焦耳,SRAM 数据搬运约 1000 皮焦耳,三个数量级的能耗差距是 GPU 必须采用大批处理的物理根因,而非纯粹的工程选择。

可验证强化学习(RLVR, Reinforcement Learning with Verifiable Rewards):当前数学与编程能力飞跃的核心驱动力,因答案可被客观验证而得以有效训练;如何将其延伸至无法客观验证的开放领域,是 Jeff Dean 认为最重要的开放研究问题。

可安装知识(Installable Knowledge):Jeff Dean 提出的模块化未来愿景,允许将医疗、机器人、多语言等专业知识模块按需组合接入统一基础模型,而非为每个垂直领域从头训练专用模型。


原文信息


此摘要卡片由 AI 自动生成