微信扫码
添加专属顾问
我要投稿
LLama3 & GPT-5
当我们回顾Transformer三大变体的第一阶段发展历程时,一个不容忽视的事实是:Decoder-Only结构似乎在这场竞赛中脱颖而出,赢得了初步的胜利。
Transformer
Transformer遵循编码器-解码器总体架构,使用堆叠的自注意力机制和逐位置的全连接层,分别用于编码器和解码器,如图中的左半部分和右半部分所示。
Transformer架构
编码器 - 解码器架构
Transformer模型:将整个Transformer模型视为一个黑盒,在机器翻译任务中,它可以将句子从一种语言翻译成另一种语言。
打开这个黑盒,左边是N个编码器,右边是N个解码器,Transformer中的N为6。
详细了解看这篇:神经网络算法 - 一文搞懂Encoder-Decoder(编码器-解码器)
Transformer的编码器与解码器的本质区别:在于Self-Attention的Mask机制。
Encoder负责将输入序列转换为隐藏表示,通过多层自注意力和全连接层,捕捉序列中所有位置的依赖关系,无需使用Mask。
Decoder生成输出序列,利用Encoder输出和已生成部分序列作为输入。在Decoder的Self-Attention中,使用Mask防止当前位置受到未来信息影响,确保生成顺序和准确性。
详细了解看这篇:神经网络算法 - 一文搞懂Transformer中的三种注意力机制
Transformer中的编码器部分一共6个相同的编码器层组成。
每个编码器层都有两个子层,即多头自注意力层(Multi-Head Self-Attention)层和前馈神经网络(Feed-Forward Network)。
在每个子层后面都有残差连接(图中的虚线)和层归一化(LayerNorm)操作,二者合起来称为Add&Norm操作。
Transformer的编码器
Transformer中的解码器部分同样一共6个相同的解码器层组成。
每个解码器层都有三个子层,即因果自注意力层(Masked Self-Attention)、交叉注意力(Encoder-Decoder Attention)、前馈神经网络(Feed Forward)。
同样,在每个子层后面都有残差连接(图中的虚线)和层归一化(LayerNorm)操作,二者合起来称为Add&Norm操作。
Transformer的解码器
Transformer的三大变体
Transformer的三大变体:Decoder-Only专注生成文本,Encoder-Only擅于分析文本,Encoder-Decoder融合编解码实现文本生成和文本分析。
Transformer的三大变体
蓝色分支Decoder-Only模型:随着时间的推移,越来越多的Decoder-Only模型被推出,如LLama、GPT等,显示了这一分支的活跃度和发展势头。
Decoder-Only模型就如同一位即兴演讲者。你为他提供一个话题或者一个开头,比如“未来城市的模样”,他便能根据这个引子,滔滔不绝地展开演讲,描述出他心中的未来城市景象,直至演讲结束。
模型特点:擅长创造性写作,具备出色的文本生成能力。它能够根据已有信息,灵活扩展出新颖、连贯的内容,如自动生成文章、续写故事等。
典型代表:OpenAI GPT、Meta LLama,用于文本生成,通过捕捉文本中的语言模式和风格,使生成的文本更加自然、流畅。
OpenAI GPT
Meta LLama
Encoder-Only模型则像是一个侦探,它接收一段文字或信息(案件线索),然后深入解析、理解其内在含义(破案)。
模型特点:擅长分析和理解文本,捕捉文本中的关键信息,如情感、主题或实体。这种模型在文本分类、情感分析、信息抽取等任务中表现出色。
典型代表:Google BERT,用于处理输入数据,专注于理解和编码信息,而不是生成新的文本。
Google BERT
模型特点:结合了编码与解码的功能,能够同时处理输入和输出序列,并在两者之间建立有效的联系,擅长文本生成和文本分析。
Encoder部分:负责文本分析,将输入序列(源语言文本)转化为一个固定长度的内部表示,这个表示包含了输入序列的所有关键信息。
Decoder部分:负责文本生成,根据这个内部表示来生成目标序列(目标语言文本)。
清华 GLM
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-01
2025-01-01
2024-08-13
2025-02-04
2024-07-25
2024-04-25
2024-06-13
2024-09-23
2024-04-26
2024-08-21
2025-03-17
2025-03-17
2025-03-16
2025-03-16
2025-03-16
2025-03-15
2025-03-15
2025-03-15