DeepSeek 推出 NSA：让 AI 更高效地处理长文本

2025-02-20 人工智能大语言模型注意力机制 DeepSeek

最近，AI 领域在长文本处理上又有了新动静。就在 Grok 3 模型发布当天，DeepSeek 的研究团队推出了一项名为 NSA 的新功能。我的理解是，这并非一个独立的产品，而是一种针对大模型“注意力机制”的改进技术，旨在让 AI 更高效地理解和生成长篇内容。对于需要处理复杂文档或多轮对话的应用来说，这可能是一个值得关注的进展。

长文本处理的固有挑战

为什么处理长文本对 AI 模型来说是个难题？这要从其核心机制说起。目前主流的大语言模型大多基于“注意力机制”，这种机制在处理信息时，理论上需要让文本中的每一个字词都与其他所有字词进行关联计算。当文本很短时，这没问题；但一旦文本变长，这种计算量会呈平方级增长，迅速成为瓶颈。这不仅导致计算速度变慢，对内存的需求也急剧增加，使得进行多轮深度对话或分析长篇文档变得非常困难。

NSA 的核心思路：有选择地“聚焦”

面对上述挑战，NSA 提供了一种新思路。它不再试图对长文本中的每一个细节都投入同等关注，而是采用了一种动态、分层的稀疏注意力策略。简单来说，它的工作流程可以概括为三个步骤：压缩、选择和滑动窗口。

首先，模型会将连续的文本片段初步压缩成块级的概要表示，快速抓住高级模式。接着，它会根据计算出的重要性分数，有选择地保留最相关的文本块，而不是处理全部内容。与此同时，一个“滑动窗口”机制会确保模型不会丢失句子或段落内部的局部上下文关系。这种“三管齐下”的方法，目的是在浓缩信息的同时，仍能兼顾全局结构和局部细节。

技术实现与硬件优化

NSA 的设计不仅停留在算法层面，还充分考虑了实际运行的硬件环境。研究人员实施了针对现代 GPU 优化的专用计算内核。通过优化数据在高速缓存中的调度方式，例如以组为单位加载数据并有效共享内存，NSA 显著减少了冗余的数据传输。根据原文提供的实验数据，这种软硬件协同的优化，使得在处理长序列时，模型前向计算的速度提升了约9倍，后向计算（用于训练）的速度提升了约6倍。

实际效果与潜力

那么，这种“有选择地关注”会不会降低模型的表现呢？根据研究评估，在 MMLU、GSM8K 等常见的知识推理和数学基准测试中，采用 NSA 的模型性能与使用传统全注意力机制的模型相当，甚至更好。特别是在一项需要从极长文本中精准定位信息的“大海捞针”测试中，NSA 在长达 6.4 万个词元的序列中展现了很高的检索准确率。这表明，其分层设计——先全局粗略扫描，再局部精细选择——是有效的。

结语

总体来看，NSA 代表了稀疏注意力机制发展中的一个务实方向。它没有追求理论上的极致简化，而是通过将可训练的算法与硬件层面的优化相结合，试图在计算效率和建模效果之间找到一个更好的平衡点。对于未来需要处理更长、更复杂文本的 AI 应用而言，这类技术或许能帮助它们更顺畅地运行，让我们与 AI 的交互边界得以进一步拓展。