最佳拍档（大飞） · 2025-09-13

击败大模型推理非确定性 Thinking Machines Lab批次不变内核突破详解

摘要

本文聚焦由OpenAI前CTO米拉·穆拉蒂创立的Thinking Machines Lab发布的最新突破性研究。该团队发现大模型推理输出不可复现的根本原因在于GPU批次归约顺序变化引发的浮点数误差累积，并提出"批次不变内核"（Batch-Invariant Kernel）解决方案，通过固定关键操作的归约顺序，以可控的性能损耗换取推理结果的完全一致性，对金融、医疗及强化学习等高可靠性场景具有里程碑意义。

内容框架与概述

文章首先介绍了Thinking Machines Lab的特殊背景——这家公司在2025年7月尚未推出产品便完成20亿美元种子轮融资，估值高达120亿美元。其首篇技术博客即直面一个困扰AI开发者的核心问题：即使输入和随机种子完全固定，大模型推理仍会产生不同输出。实验显示1000次推理竟可得出80种不同结果，且分歧点之前的内容完全一致。

随后文章深入剖析了非确定性的根本原因。业界通常将其归咎于GPU并发或浮点数误差，但研究发现真正根源在于浮点数的"非结合性"特质与GPU内部批次归约顺序的不固定。当服务器按负载将请求打包成不同大小的批次时，内核归约策略随之变化，导致浮点运算的累计顺序不同，最终产生输出分歧。

文章核心部分详细解读了"批次不变内核"解决方案的具体实现，分别在RMSNorm、矩阵乘法和注意力机制三个关键环节强制固定归约顺序。实验验证表明开启该方案后1000次同条件推理结果完全一致，优化后性能损耗控制在20%以内。

最后文章探讨了这一成果的深远影响，特别是在在线策略强化学习领域——未启用批次不变内核时RL训练318步即出现奖励崩溃，启用后奖励表现稳定，为RL训练提供了全新突破点。

核心概念及解读

浮点数非结合性（Floating-Point Non-Associativity）：浮点数运算中 (a+b)+c ≠ a+(b+c)，这一数学特性是大模型推理非确定性的底层根因。在矩阵乘法、RMSNorm、注意力机制等大量浮点操作中，运算顺序的微小变化会导致精度损失逐步累积，最终在关键token处引发输出分歧。理解这一特性是认识大模型推理不可复现问题的关键。

批次不变内核（Batch-Invariant Kernel）：Thinking Machines Lab提出的核心解决方案，其设计思路是无论批次大小如何变化，始终以固定顺序完成关键归约操作。具体措施包括：RMSNorm强制数据并行、矩阵乘法禁用Split-K策略并统一张量指令尺寸、注意力机制固定KV拆分块大小为256并统一预填充和解码阶段的数据格式。该方案以约20%的性能损耗换取推理结果的100%一致性。

批次归约顺序（Batch Reduction Order）：GPU在处理不同大小的批次时，会自动选择不同的内核调度策略——小批次采用单核完整归约，大批次采用并行分割归约。这种策略差异直接改变了浮点运算的执行顺序，是导致相同输入产生不同输出的直接原因。固定归约顺序是实现推理确定性的核心工程手段。

可重复性优先原则（Reproducibility-First Principle）：文章提出的框架性思维——AI系统的产业级落地应将可重复性作为第一优先级，工程团队需从GPU指令级行为出发审视底层内核，而非仅停留在参数调优层面。这一原则对医疗、金融等高可靠性场景尤为关键。

在线策略强化学习的确定性保障：批次不变内核使训练与推理输出完全一致，KL散度长期保持为零。实验对比显示，未启用时RL训练318步奖励崩溃，启用后无须复杂离线校正即可保持奖励稳定。这解决了大模型用作在线策略训练"不可落地"的核心障碍，是强化学习领域的重要突破。