AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


稀疏注意力机制
发布日期:2024-05-19 05:57:51 浏览次数: 1851 来源:AI算法科研paper


Transformer目前已经成为人工智能领域的主流模型,应用非常广泛。然而Transformer中注意力机制计算代价较高,随着序列长度的增加,这个计算量还会持续上升。

为了解决这个问题,业内出现了许多Transformer的魔改工作,以优化Transformer的运行效率。我这次就给大家分享9篇对Transformer模型进行效率优化的改进文章,以方便大家更高效地使用模型,寻找论文创新点。

文章主要涉及4个方向:稀疏注意力机制、Transformer处理长文本、Transformer运行提效以及卷积Attention,原文及源码都已整理。

Transformer处理长文本

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

方法:Transformers在语言建模中受到固定长度上下文的限制,作者提出了一种新的神经网络架构Transformer-XL,可以学习超过固定长度的依赖关系。它由一个段级别循环机制和一个新的位置编码方案组成,能够捕捉更长的依赖关系并解决上下文碎片化问题。该方法不仅在短序列和长序列上都取得了更好的性能,而且在评估期间比普通的Transformers快1,800+倍。

创新点:

  • 循环机制:提出了一种新的循环机制,允许模型在处理新段落时利用之前段落的隐藏状态,从而扩展了上下文长度。
  • 相对位置编码:提出了一种新的相对位置编码方法,使得模型在状态重用时能够保持位置信息的一致性。
  • 长期依赖性捕获:Transformer-XL能够捕获比RNNs长80%、比普通Transformer模型长450%的依赖性。
  • 性能提升:在多个语言建模数据集上取得了优异的性能,包括enwiki8、text8、WikiText-103、One Billion Word和Penn Treebank。
  • 高效计算:通过重用隐藏状态,Transformer-XL在评估时的速度得到了显著提升。
  • 文本生成:展示了Transformer-XL在生成数千个标记的连贯、新颖文本文章方面的潜力。

Transformer运行提效

REFORMER: THE EFFICIENT TRANSFORMER

方法简述:大型Transformer模型训练成本高,尤其是在长序列上。论文提出了两种技术来提高效率:使用局部敏感哈希替换点积注意力,将复杂度从O(L^2)降低到O(L log L);使用可逆残差层代替标准残差,允许只存储一次激活。由此产生的Reformer模型在长序列上表现相当,但运行速度更快,内存效率更高。

创新点:

  • LSH注意力机制:首次将LSH直接应用于Transformer的注意力层,提供了一种有效处理长序列的方法。
  • 可逆层的应用:在Transformer模型中引入可逆层,显著减少了模型的内存占用,同时保持了模型性能。
  • 序列长度和内存效率:Reformer能够在单个核心上高效地训练大型模型,并在长序列上快速运行,即使对于具有大量层的模型也是如此。
  • 多轮LSH注意力的分析:探讨了多轮LSH注意力如何提高近似精度,并研究了这一参数对训练动态的影响。
  • Transformer模型的扩展:Reformer的提出使得大型、参数丰富的Transformer模型更加普及和易于访问,同时能够处理长序列,为生成任务和其他领域(如时间序列预测、音乐、图像和视频生成)的应用打开了大门。

卷积Attention

Conformer: Convolution-augmented Transformer for Speech Recognition

方法:Conformer是一种结合了卷积神经网络和Transformer的模型,用于语音识别。它能够同时捕捉音频序列的局部和全局依赖关系,并实现了最先进的准确率。在LibriSpeech基准测试中,Conformer在不使用语言模型的情况下实现了2.1%/4.3%的WER,在使用外部语言模型的情况下实现了1.9%/3.9%的WER。此外,它还具有竞争力的小模型,只有10M参数。

创新点:

  • Conformer架构:提出了一种新的结合CNN和Transformer的架构,用于端到端的语音识别任务。
  • Macaron风格的FFN:在Conformer块中采用了两个前馈网络模块,这些模块采用了半步残差权重,显示了比传统Transformer块更好的性能。
  • 相对正弦位置编码:在多头自注意力模块中使用相对正弦位置编码,提高了模型对不同长度输入的鲁棒性。
  • 卷积模块的集成:通过在Transformer块中集成卷积模块,增强了模型捕获局部特征的能力。
  • 参数效率:Conformer模型在参数数量较少的情况下,实现了比以往工作更高的准确率。
  • LibriSpeech数据集上的SOTA性能:在LibriSpeech基准测试中,Conformer模型在没有使用语言模型的情况下达到了2.1%/4.3%的词错误率(WER),在使用外部语言模型时达到了1.9%/3.9%的WER。

稀疏注意力机制

Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting

方法:时间序列预测是许多领域中的重要问题,包括太阳能发电厂能源输出、电力消耗和交通拥堵情况的预测。本文提出了使用Transformer来解决这种预测问题的方法。虽然初步研究表明其性能令人印象深刻,但作者发现它有两个主要缺点:局部性不敏感和内存瓶颈。为了解决这两个问题,作者提出了卷积自注意力和LogSparse Transformer,它们能够更好地处理局部上下文并降低内存成本。实验表明,这些方法在时间序列预测方面具有优势。

创新点:

  • 局部感知的自注意力:通过卷积自注意力机制,模型能够更加关注局部上下文信息,这在时间序列预测中是一个重要的特性,因为它可以帮助模型区分异常值、变化点或模式的一部分。
  • 内存效率:LogSparse Transformer通过减少每层所需的注意力计算量,显著降低了内存使用量,使得模型能够处理更细粒度的长时间序列。
  • 稀疏注意力策略:提出了一种稀疏注意力策略,该策略允许每个单元格只关注其之前的单元格的一个指数级子集,从而减少了模型的内存和计算需求。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询