sean goedecke · 2026-02-15

LLM快速推理的两种技术方案

摘要

Anthropic和OpenAI近期分别推出了快速推理模式，但技术路径截然不同。Anthropic通过降低batch size实现2.5倍加速，仍使用完整的Opus 4.6模型；OpenAI则借助Cerebras的巨大芯片（70平方英寸）实现15倍加速，但需使用精简版的Spark模型。作者认为OpenAI的技术方案更为先进，但快速推理的实际价值有限，因为AI agent的核心价值在于减少错误而非单纯速度。

内容框架与概述

文章开篇对比了两家公司的快速模式性能数据：Anthropic达到170 token/秒（提升2.5倍），OpenAI超过1000 token/秒（提升15倍）。随后深入剖析Anthropic的技术方案，将其类比为公交车直达服务——通过降低批处理等待时间换取速度，但成本增加6倍。作者指出这是内存与计算权衡的经典问题，小batch需要更少计算资源因此执行更快。

文章后半部分聚焦OpenAI的Cerebras技术。作者详细解释了Cerebras芯片的巨大优势：44GB内置SRAM足以容纳整个小模型，实现完全内存内推理，避免了传统GPU从外部存储读写权重的高延迟。作者同时承认技术细节存在不确定性，并引用了Hacker News上关于连续批处理和芯片通信的讨论。最后，作者对快速推理的实际价值持保留态度，认为错误率才是AI agent的关键指标。