我要投稿

GPT的Transformer技术工作原理的动画演示1

发布日期：2024-05-26 20:02:07 浏览次数： 2770 作者：不糊弄的说

写在前面

Transformer由论文《Attention is All You Need》提出，现在是谷歌云TPU推荐的参考模型。通过引入自注意力机制和位置编码层，有效地捕捉输入序列中的长距离依赖关系，并且在处理长序列时表现出色。此外，Transformer 模型的并行化计算能力也使得训练速度更快，推动了深度学习在自然语言处理领域的重大突破，如机器翻译任务中的BERT（Bidirectional Encoder Representations from Transformers）模型等。

本文参考自arthurchiao【详见原文链接】翻译的2024年Deep Learning系列的第5章But what is a GPT? Visual intro to transformers学习视频。强烈推荐原视频。笔者也整理了全译文PDF材料（27min时长的视频，翻译后的字母文稿约合8K余字），需要的可留言私信，一起学习进步。

本译文通过“文字+动图”这种可视化又便于理解的方式的方式，大致梳理介绍 Transformer 的工作原理和内部实际发生的数据流动变化过程。

其他关技术和实现可参考阅读：

OpenAI:ChatGPT记忆功能新控件

NVIDIA Blackwell架构和实现详解

NVIDIA TensorRT-LLM模型加速Google Gemma推理

Transformer 预测下一个单词。MLP 也称为 feed-forward。

译文整理供参考

译者序
1 图解GPT

1.1 Generative：生成式
1.2 Pre-trained：预训练
1.3 Transformer：一类神经网络架构
1.4 小结

1 图解Generative Pre-trained Transformer（GPT）

GPT是Generative Pre-trained Transformer的缩写，直译为“生成式预训练 transformer”。首个单词较为直接，它们是用来生成新文本的机器人。"Pre-trained" （预训练）指的是模型经历了从大量数据中学习的过程，这个词暗示了该模型还有进一步在特定任务中进行额外训练和微调的可能。然而最后一个词才是真正重要的部分。Transformer 是一种特定类型的神经网络，一个机器学习模型，它是现今 AI 高速发展的核心创新。

1.1 Generative：生成式

“Generative”（生成式）意思很直白，就是给定一段输入（例如，最常见的文本输入），模型就能续写（“编”）下去。

1.1.1 可视化

下面是个例子，给定 “The most effective way to learn computer science is” 作为输入，模型就开始续写后面的内容了。

“Generative”：生成（续写）文本的能力。

1.1.2 生成式 vs. 判别式（译注）

文本续写这种生成式模型，区别于 BERT 那种判别式模型（用于分类、完形填空等等），

BERT：预训练深度双向 Transformers 做语言理解（Google，2019）

1.2 Pre-trained：预训练

"Pre-trained" （预训练）指的是模型经历了从大量数据中学习的过程，这个词暗示了该模型还有进一步在特定任务中进行额外训练和微调的可能。

1.2.1 可视化

“Pre-trained”：用大量数据进行训练。

大量旋钮/仪表盘就是所谓的“模型参数”，训练过程就是在不断优化这些参数，后面会详细介绍。

1.2.2 预训练 vs. 增量训练（微调）

“预”这个字也暗示了模型还有在特定任务中进一步训练的可能 —— 也就是我们常说的“微调”（finetuning）。

如何对预训练模型进行微调：InstructGPT：基于人类反馈训练语言模型遵从指令的能力（OpenAI，2022）。译注。

1.3 Transformer：一类神经网络架构

“GPT” 三个词中最重要的其实是最后一个词 Transformer。Transformer 是一类神经网络/机器学习模型，作为近期 AI 领域的核心创新，推动着这个领域近几年的极速发展。

可以使用Transformer构建许多不同类型的模型。有些模型接受音频输入并生成文字。这句话来自一个反向工作的模型，只需要文本输入就能生成人工语音。

Transformer 直译为“变换器”或“转换器”，通过数学运算不断对输入数据进行变换/转换。另外，变压器、变形金刚也是这个词。译注。

Transformer：一类神经网络架构的统称。

Transformer 最后的输出层。后面还会详细介绍

1.4 小结

如今已经可以基于 Transformer 构建许多不同类型的模型，不限于文本，例如，

语音转文字
文字转语音
文生图（text-to-image）:在2022年风靡全球的工具如DALL-E和MidJourney，能够将文本描述转化为图像，都是基于Transformer的。

"π 生物"

即使无法让模型完全理解 "π 生物"到底是什么，仍对这样的事情有可能发生感到惊讶。

本文通过“文字+动图”这种可视化又方便随时停下来思考的方法，以一种便于理解的方式，阐述Transformer的内部工作原理和内部实际发生的过程。后面将逐步探索流经它的数据。详细信息可阅读原视频和原文内容。

https://www.youtube.com/watch?v=wjZofJX0v4Mhttps://arthurchiao.art/blog/visual-intro-to-transformers-zh/

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

杨植麟再掀 AI 风暴！Kimi-Audio 如何让机器听懂人类 “弦外之音”？

2025-04-28

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

演讲实录：中小企业如何快速构建AI应用？

2025-04-27

从命令到共创：AI提示词如何释放你的创造力？

2025-04-27

一文了解：大模型 Agent 开发框架有哪些？它们的区别是什么？

2025-04-27

为什么新手比专家更想做垂直领域SFT微调？

2025-04-27

伪装成浏览器的 AI Agent，好用吗？

2025-04-26

RAG比之MCP或长上下文LLM，要没落了吗？

2025-04-26

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB