本文提出了一种实验性稀疏注意力模型DeepSeek-V3.2-Exp,通过在V3.1-Terminus模型基础上持续训练,引入了DeepSeek Sparse Attention(DSA)。DSA采用高效的闪电索引器,实现了细粒度稀疏注意力,使模型在长文本场景下的训练和推理效率显著提升。模型性能未明显劣化,同时在实际推理费用方面大幅优化。
核心问题
- 上下文窗口扩展导致注意力计算复杂度暴增
- 长文本场景的训练与推理效率低下
- 实际应用中的成本控制困难
解决方案
- 闪电索引器快速计算token相关度
- Top-k选择器筛选高价值key-value
- MLA架构实现多头共享计算
研究方法
闪电索引机制
采用闪电索引器计算每个查询token与历史token的索引分数,基于top-k筛选对应的key-value,进行稀疏注意力推理
架构设计
模型架构仍采用MLA(Multi-Query Attention),仅在注意力机制上做稀疏化改动
训练流程
包括密集预热阶段(仅训练索引器)、稀疏化阶段(主模型和索引器一起优化)、蒸馏+强化学习后训练
主要结论
效率提升
大幅提升长文本输入的效率和推理速度,无精度损失
成本降低
推理价格大幅降低,特别适合128K超长上下文窗口
性能稳定
在文本、代码、搜索、数学推理等任务均实现高分
创新亮点
闪电索引器
首创模型闪电索引器用于高效筛选注意力分布
性能保持
在超长上下文窗口下保持主模型性能稳定
实用价值
推理成本显著降低,为实际应用铺路