我要投稿

“开源靠LLama，闭源看GPT“，Transformer变体第一阶段，Decoder-Only获胜？

发布日期：2024-04-30 08:26:12 浏览次数： 5339 作者：架构师带你玩转AI

LLama3 & GPT-5

当我们回顾Transformer三大变体的第一阶段发展历程时，一个不容忽视的事实是：Decoder-Only结构似乎在这场竞赛中脱颖而出，赢得了初步的胜利。

模型发展历史

—1—

Transformer

Transformer遵循编码器-解码器总体架构，使用堆叠的自注意力机制和逐位置的全连接层，分别用于编码器和解码器，如图中的左半部分和右半部分所示。

Transformer架构

编码器-解码器架构

编码器 - 解码器架构：将现实问题转化为数学问题（Encoder编码器），通过求解数学问题来得到现实世界的解决方案（Decoder解码器）。

编码器 - 解码器架构

Transformer模型：将整个Transformer模型视为一个黑盒，在机器翻译任务中，它可以将句子从一种语言翻译成另一种语言。

打开这个黑盒，左边是N个编码器，右边是N个解码器，Transformer中的N为6。

详细了解看这篇：神经网络算法 - 一文搞懂Encoder-Decoder（编码器-解码器）

Transformer的编码器与解码器的本质区别

Transformer的编码器与解码器的本质区别：在于Self-Attention的Mask机制。

Encoder负责将输入序列转换为隐藏表示，通过多层自注意力和全连接层，捕捉序列中所有位置的依赖关系，无需使用Mask。

Decoder生成输出序列，利用Encoder输出和已生成部分序列作为输入。在Decoder的Self-Attention中，使用Mask防止当前位置受到未来信息影响，确保生成顺序和准确性。

详细了解看这篇：神经网络算法 - 一文搞懂Transformer中的三种注意力机制

编码器

Transformer中的编码器部分一共6个相同的编码器层组成。

每个编码器层都有两个子层，即多头自注意力层(Multi-Head Self-Attention)层和前馈神经网络(Feed-Forward Network)。

在每个子层后面都有残差连接（图中的虚线）和层归一化（LayerNorm）操作，二者合起来称为Add&Norm操作。

Transformer的编码器

解码器

Transformer中的解码器部分同样一共6个相同的解码器层组成。

每个解码器层都有三个子层，即因果自注意力层(Masked Self-Attention)、交叉注意力（Encoder-Decoder Attention）、前馈神经网络（Feed Forward）。

同样，在每个子层后面都有残差连接（图中的虚线）和层归一化（LayerNorm）操作，二者合起来称为Add&Norm操作。

Transformer的解码器

—2—

Transformer的三大变体

Transformer的三大变体：Decoder-Only专注生成文本，Encoder-Only擅于分析文本，Encoder-Decoder融合编解码实现文本生成和文本分析。

Transformer的三大变体

蓝色分支Decoder-Only模型：随着时间的推移，越来越多的Decoder-Only模型被推出，如LLama、GPT等，显示了这一分支的活跃度和发展势头。

粉色分支Encoder-Only模型：这些模型主要用于编码和表示输入序列，如BERT、RoBERTa等。

绿色分支Encoder-Decoder模型：结合了前两者的特点，既能够编码输入序列，又能生成输出序列，如T5、GLM（清华）。

Transformer的三大变体

Decoder-Only模型

Decoder-Only模型就如同一位即兴演讲者。你为他提供一个话题或者一个开头，比如“未来城市的模样”，他便能根据这个引子，滔滔不绝地展开演讲，描述出他心中的未来城市景象，直至演讲结束。

模型特点：擅长创造性写作，具备出色的文本生成能力。它能够根据已有信息，灵活扩展出新颖、连贯的内容，如自动生成文章、续写故事等。

典型代表：OpenAI GPT、Meta LLama，用于文本生成，通过捕捉文本中的语言模式和风格，使生成的文本更加自然、流畅。

OpenAI GPT

详细了解看这篇：神经网络算法 - 一文搞懂GPT（Generative Pre-trained Transformer）

Meta LLama

详细了解看这篇：国内“百模大战”，大部分都是套壳LLaMA？

Encoder-Only模型

Encoder-Only模型则像是一个侦探，它接收一段文字或信息（案件线索），然后深入解析、理解其内在含义（破案）。

模型特点：擅长分析和理解文本，捕捉文本中的关键信息，如情感、主题或实体。这种模型在文本分类、情感分析、信息抽取等任务中表现出色。

典型代表：Google BERT，用于处理输入数据，专注于理解和编码信息，而不是生成新的文本。

Google BERT

详细了解看这篇：神经网络算法 - 一文搞懂BERT（基于Transformer的双向编码器）

Encoder-Decoder模型

Encoder-Decoder模型就像是一位精通多种语言的翻译家。当你给它一段源语言文本时，它不仅能够理解并捕捉这段文本中的关键信息和语义，还能够将其精准地翻译成另一种目标语言。

模型特点：结合了编码与解码的功能，能够同时处理输入和输出序列，并在两者之间建立有效的联系，擅长文本生成和文本分析。

Encoder部分：负责文本分析，将输入序列（源语言文本）转化为一个固定长度的内部表示，这个表示包含了输入序列的所有关键信息。

Decoder部分：负责文本生成，根据这个内部表示来生成目标序列（目标语言文本）。

典型代表：清华GLM，在机器翻译、文本摘要和对话生成等任务中取得了显著的成果。

清华 GLM

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

探秘 LLM Agents：ReAct 框架藏着哪些惊喜？

2025-04-13

MCP、Function Calling 有什么区别？与 AI Agent 有什么关系？

2025-04-13

有了MCP，还需要深入研究Agent吗？

2025-04-13

Google ADK，知多少？

2025-04-13

Dify 基础篇| 深度解读 RAG：为什么需要混合检索？

2025-04-13

AI与自动化实战：n8n、Dify、Coze哪个更适合我们？

2025-04-13

大模型备案详解：哪些企业需要备案？如何高效准备？

2025-04-12

一夜之间，所有AI都会“说普通话”！谷歌A2A协议到底有多猛？

2025-04-12

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB