AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


GPT的Transformer技术工作原理的动画演示1
发布日期:2024-05-26 20:02:07 浏览次数: 1991 来源:不糊弄的说


写在前面

Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。通过引入自注意力机制和位置编码层,有效地捕捉输入序列中的长距离依赖关系,并且在处理长序列时表现出色。此外,Transformer 模型的并行化计算能力也使得训练速度更快,推动了深度学习在自然语言处理领域的重大突破,如机器翻译任务中的BERT(Bidirectional Encoder Representations from Transformers)模型等。



本文参考自arthurchiao【详见原文链接翻译的2024年Deep Learning系列的第5章But what is a GPT? Visual intro to transformers学习视频。强烈推荐原视频。笔者也整理了全译文PDF材料(27min时长的视频,翻译后的字母文稿约合8K余字),需要的可留言私信,一起学习进步。


本译文通过“文字+动图”这种可视化又便于理解的方式的方式,大致梳理介绍 Transformer 的工作原理和内部实际发生的数据流动变化过程

其他关技术和实现 可参考阅读:
OpenAI:ChatGPT记忆功能新控件
NVIDIA Blackwell架构和实现详解
NVIDIA TensorRT-LLM模型加速Google Gemma推理

Transformer 预测下一个单词。MLP 也称为 feed-forward。

译文整理供参考


  • 译者序

  • 1 图解GPT

    • 1.1 Generative:生成式

    • 1.2 Pre-trained:预训练

    • 1.3 Transformer:一类神经网络架构

    • 1.4 小结


1 图解Generative Pre-trained Transformer(GPT)

GPTGenerative Pre-trained Transformer的缩写,直译为“生成式预训练 transformer”。首个单词较为直接,它们是用来生成新文本的机器人。"Pre-trained" (预训练)指的是模经历了从大量数据中学习的过程,这个词暗示了该模型还有进一步在特定任务中进行额外训练和微调的可能。然而最后一个词才是真正重要的部分。Transformer 是一种特定类型的神经网络,一个机器学习模型,它是现今 AI 高速发展的核心创新。

1.1 Generative:生成式

“Generative”(生成式)意思很直白,就是给定一段输入(例如,最常见的文本输入), 模型就能续写(“编”)下去。

1.1.1 可视化

下面是个例子,给定 “The most effective way to learn computer science is” 作为输入, 模型就开始续写后面的内容了。

“Generative”:生成(续写)文本的能力。

1.1.2 生成式 vs. 判别式(译注)

文本续写这种生成式模型,区别于 BERT 那种判别式模型(用于分类、完形填空等等),

  • BERT:预训练深度双向 Transformers 做语言理解(Google,2019)

1.2 Pre-trained:预训练

"Pre-trained" (预训练)指的是模型经历了从大量数据中学习的过程,这个词暗示了该模型还有进一步在特定任务中进行额外训练和微调的可能。

1.2.1 可视化

“Pre-trained”:用大量数据进行训练。

大量旋钮/仪表盘就是所谓的“模型参数”,训练过程就是在不断优化这些参数,后面会详细介绍。

1.2.2 预训练 vs. 增量训练(微调)

“预”这个字也暗示了模型还有在特定任务中进一步训练的可能 —— 也就是我们常说的“微调”(finetuning)。

如何对预训练模型进行微调:InstructGPT:基于人类反馈训练语言模型遵从指令的能力(OpenAI,2022)。译注。

1.3 Transformer:一类神经网络架构

“GPT” 三个词中最重要的其实是最后一个词 Transformer。Transformer 是一类神经网络/机器学习模型,作为近期 AI 领域的核心创新, 推动着这个领域近几年的极速发展。

可以使用Transformer构建许多不同类型的模型。有些模型接受音频输入并生成文字。这句话来自一个反向工作的模型,只需要文本输入就能生成人工语音。

Transformer 直译为“变换器”或“转换器”,通过数学运算不断对输入数据进行变换/转换。另外,变压器、变形金刚也是这个词。译注。

Transformer:一类神经网络架构的统称。

Transformer 最后的输出层。后面还会详细介绍

1.4 小结

如今已经可以基于 Transformer 构建许多不同类型的模型,不限于文本,例如,

  • 语音转文字

  • 文字转语音

  • 文生图(text-to-image):在2022年风靡全球的工具如DALL-E和MidJourney,能够将文本描述转化为图像,都是基于Transformer的

 "π 生物"

即使无法让模型完全理解 "π 生物"到底是什么,仍对这样的事情有可能发生感到惊讶。


本文通过“文字+动图”这种可视化又方便随时停下来思考的方法,以一种便于理解的方式,阐述Transformer的内部工作原理和内部实际发生的过程。后面将逐步探索流经它的数据。详细信息可阅读原视频和原文内容


https://www.youtube.com/watch?v=wjZofJX0v4Mhttps://arthurchiao.art/blog/visual-intro-to-transformers-zh/



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询