我要投稿

LLM语言模型的3种架构：encoder-only，decoder-only，encoder-decoder

发布日期：2024-05-09 07:49:08 浏览次数： 5326

作者：博金斯的AI笔记

微信搜一搜，关注“博金斯的AI笔记”

最原始的Transform模型是用来做英语和德语、法语的翻译，下图是它的图像构成

在 Transformer 模型中，编码器负责理解和提取输入文本中的相关信息。这个过程通常涉及到处理文本的序列化形式，例如单词或字符，并且用自注意力机制（Self-Attention）来理解文本中的上下文关系。

编码器的输出是输入文本的连续表示，通常称为嵌入（Embedding）。这种嵌入包含了编码器从文本中提取的所有有用信息，并以一种可以被模型处理的格式（通常是高维向量）表示。

这个嵌入然后被传递给解码器。解码器的任务是根据从编码器接收到的嵌入来生成翻译后的文本（目标语言）。解码器也使用自注意力机制，以及编码器-解码器注意力机制，来生成翻译的文本。

LLMs中有的是只有编码器encoder-only，有的只有解码器decoder-only，有的是2者混合 encoder decoder hybrid。

三者都属于Seq2Seq，sequence to sequence。

并且字面意思是虽只有编码器encoder，实际上LLMs是能decoder一些文本和token的，也算是decoder。不过由于encoder-only类型的LLM不像decoder-only和encoder-decoder那些有自回归autoregressive，encoder-only集中于理解输入的内容，并做针对特定任务的输出

自回归指输出的内容是根据已生成的token做上下文理解后一个token一个token输出的。

总的来说，encoder-only类型的更擅长做分类；encoder-decoder类型的擅长输出强烈依赖输入的，比如翻译和文本总结，而其他类型的就用decoder-only，如各种Q&A。虽然encoder-only没有decoder-only类型的流行，但也经常用于模型预训练

Encoder-only架构的LLMs更擅长对文本内容进行分析、分类，包括情感分析，命名实体识别。这里以Bert为例子详细说明，roBerta是基于Bert进行了升级，比如扩大了batch size，在更大的数据上训练，消除了Bert的next-sentence prediction task训练方式

Bert的训练是基于next-sentence prediction task和mask language modeling

next-sentence prediction task是将原句子打乱成不同顺序的句子，让bert找出正确语序的原句，例如

[CLS] Toast is a simple yet delicious food [SEP] It’s often served with butter, jam, or honey.
[CLS] It’s often served with butter, jam, or honey. [SEP] Toast is a simple yet delicious food.

[CLS] token是一个占位符标记，它提示模型返回一个 True 或 False 的标签，表示这两个句子是否按照正确的顺序排列。如果句子的顺序是正确的，模型应该返回 True，如果句子的顺序被打乱，模型应该返回 False。

[SEP] token用来分割2个句子

mask language modeling则是在大量的文本语料库中将数据中的某部分遮住mask，让Bert根据上下文内容来预测mask的内容。如下图把原句中15%的部分随机遮挡，遮挡的是climbed，80%时间用mask token取代，10%时间用随机token，10%时间不变

Decoder

Decoder主要是是为了预测下一个输出的内容/token是什么，并把之前输出的内容/token作为上下文学习。实际上，decoder-only模型在分析分类上也和encoder only的LLM一样有效。

Decoder-only的decoder层跟encoder相似，不过在位置position上用到了mask

在 Transformer 模型的解码器中，自注意力机制允许每个位置的输出都依赖于输入序列中所有位置的信息。然而，当生成输出序列（例如在文本翻译任务中生成目标语言的文本）时，我们希望位置 i 的输出只依赖于位置 i 之前的已知输出，而不依赖于位置 i 之后的输出。为了实现这一点，我们使用了一种“掩码”技术，阻止模型关注位置 i 之后的位置。

这意味着，在进行解码器的自注意力运算时，位置 i 的注意力分布（即注意力权重）只会在位置 i 及其之前的位置上，不会在位置 i 之后的位置上。这样，我们就可以确保位置 i 的输出只依赖于位置 i 之前的已知输出。

输出的内容也是一个token，一个token的生成，如下图

Encoder-Decoder混合

这种架构的LLM通常充分利用了上面2种类型的优势，采用新的技术和架构调整来优化表现。这种主要用于NLP，即理解输入的内容NLU，又能处理并生成内容NLG，尤其擅长处理输入和输出序列之间存在复杂映射关系的任务，以及捕捉两个序列中元素之间关系至关重要的任务。以下是该类型的2个主要LLMs

BART (Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension, 2019)
and T5 (Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, 2019).