AI RESEARCH DIGEST / 2025.09

深度探索V3.2-Exp

用稀疏注意力提升长文本效率

DeepSeek-AI research@deepseek.com
ABSTRACT

本文提出了一种实验性稀疏注意力模型DeepSeek-V3.2-Exp,通过在V3.1-Terminus模型基础上持续训练,引入了DeepSeek Sparse Attention(DSA)。DSA采用高效的闪电索引器,实现了细粒度稀疏注意力,使模型在长文本场景下的训练和推理效率显著提升。模型性能未明显劣化,同时在实际推理费用方面大幅优化。

PROBLEM

核心问题

  • 上下文窗口扩展导致注意力计算复杂度暴增
  • 长文本场景的训练与推理效率低下
  • 实际应用中的成本控制困难
SOLUTION

解决方案

  • 闪电索引器快速计算token相关度
  • Top-k选择器筛选高价值key-value
  • MLA架构实现多头共享计算
METHODOLOGY

研究方法

闪电索引机制

采用闪电索引器计算每个查询token与历史token的索引分数,基于top-k筛选对应的key-value,进行稀疏注意力推理

架构设计

模型架构仍采用MLA(Multi-Query Attention),仅在注意力机制上做稀疏化改动

训练流程

包括密集预热阶段(仅训练索引器)、稀疏化阶段(主模型和索引器一起优化)、蒸馏+强化学习后训练

KEY FINDINGS

主要结论

效率提升

大幅提升长文本输入的效率和推理速度,无精度损失

成本降低

推理价格大幅降低,特别适合128K超长上下文窗口

性能稳定

在文本、代码、搜索、数学推理等任务均实现高分

INNOVATIONS

创新亮点

01

闪电索引器

首创模型闪电索引器用于高效筛选注意力分布

02

性能保持

在超长上下文窗口下保持主模型性能稳定

03

实用价值

推理成本显著降低,为实际应用铺路

TERMINOLOGY

专业词汇表

Sparse Attention
稀疏注意力
Lightning Indexer
闪电索引器
Key-Value Entry
键值条目
Top-k Selector
Top-k筛选器
Multi-Query Attention
多查询注意力
Context Window
上下文窗口
Reinforcement Learning
强化学习
KL-divergence loss
KL散度损失
Chain-of-Thought
思维链