Cursor Documentation · 2025-10-06

Token 与定价解释

摘要

Token是AI模型处理语言的基本单位，也是计费和性能评估的核心指标。文章阐述了Token与单词的区别、输入/输出Token的差异化定价（输出通常贵2-4倍）、流式响应的工作原理，以及通过精简上下文、缓存复用、中断机制等方式优化Token使用的实用策略。

内容框架与概述

文章从AI模型的底层工作原理切入，解释Token作为语言处理最小单元的概念。正如计算机用二进制而非直接理解字母，AI模型将文本拆解为Token进行处理——“understanding"可能被分解为"under”、“stand”、“ing"三个独立单元。

在计费层面，文章区分了输入Token（用户发送的提示词、上下文）和输出Token（模型生成的回复），强调输出Token因需要更多算力而价格更高。这一机制意味着让AI生成长回复会显著增加成本。文章随后介绍了流式响应——模型逐Token生成并实时返回的机制，这既是底层技术特性，也为用户提供了即时反馈和中途打断的可能。

最后，文章提出了Token优化的实践框架：精简输入上下文、利用缓存复用、培养"Token预算"意识，以及在流式输出中及时调整方向，从而在控制成本的同时提升协作效率。