Word embeddings词嵌入向量浅析

发布日期：2024-06-06 21:11:10 浏览次数： 1561

3blue1brown

编者按：本文是3Blue1Brown讲解Transformer技术工作原理的动画演示章节内容Word embeddings词嵌入向量。

Lesson by Grant Sanderson

（小编跟踪整理，供参考学习）

往期回顾：

GPT的Transformer技术工作原理

Transformer起源及应用

Transformer内部原理四部曲

深度学习技术前提的动态展示

模型拥有一个预设的词汇库，包含所有可能的单词，比如说有50,000 个。将首先遇到的一个矩阵叫做嵌入矩阵，它为每个单词都分配了一个独立的列。这些列定义了第一步中每个单词转换成的向量将其称为We，就像看到的所有其他矩阵一样，它的初始值是随机的，但基于数据进行学习和调整。

在Transformers出现之前，机器学习中就已经普遍采用了将单词转换为向量的做法，虽然这对于初次接触的人来说可能有些奇怪，但它为接下来的一切建立了基础，因此需要花一些时间来熟悉它。通常称这种转换为词嵌入，这种表述让你可以从几何的角度去理解这些向量，把它们想象成高维空间中的点。

模型权重

将三个数字看作是三维空间中的坐标点很简单，但词向量的维度远远超出这个范畴。在GPT-3 中的维度高达12,288，如你所见，选择一个有很多不同方向的空间进行工作是很重要的。就像你可以在三维空间中选择一个二维切片，并将所有点投影到这个切片上一样，为了让简单模型输出的词向量能够被动态展示，我采取了相似的方法，选择了一个高维空间中的三维"切片",并将词向量映射到这个切片上来展示它们。

这里的关键思想是，模型在训练过程中调整和微调权重，以确定词具体如何被嵌入为向量，它会倾向于找到一组嵌入，使得这个空间中的方向含有特定的语义意义。对于我目前运行的这个简单的词向量模型来说，如果进行搜索，找到所有与"塔"最相似的词向量，你会发现这些词都有着类似的"塔"感。如果你想在家里用Python 试一试，这就是我用来制作动画的模型。虽然它不是一个Transformer模型，但足以说明一个观点：空间中的方向能够传达特定的语义。

向量

经典例子

一个经典的例子是，如果你计算"女人"和"男人"向量之间的差值，你会发现这个差异可以被可视化为空间中的一个小向量，连接一个词的尖端和另一个词的尖端，这个差异与"国王"和"女王"之间的差值非常相似。所以假设你不知道表示"女性君主"的词，你可以通过向"国王"向量添加"女人减男人"的方向，并搜索最接近这个点的词向量来找到它。至少在理论上是这样。

虽然这是我正在使用的模型的一个经典例子，但实际上，真正的"女王"嵌入实际上比这种方法预想的要远一些，这可能是因为在训练数据中，"女王"并不仅仅是"国王"的女性版本。深入挖掘时，我发现通过家族关系来解释这一现象似乎更为恰当。关键在于，在训练过程中，模型发现采用这样的嵌入方式更为有利，即这个空间中的一个方向能够编码性别信息。

另一个例子是，如果你从"意大利"的向量表示中减去"德国"的向量表示，再加上"希特勒"的向量表示，结果非常接近于"墨索里尼"的向量表示。这就好像模型学会了将某些方向与"意大利"特性相关联，而将其他方向与二战轴心国的领导人相关联。

个人最喜欢的一个例子是，在某些模型中，如果你计算"德国"和"日本"的向量差值，然后加上"寿司"的向量，你得到的结果会非常接近"德国香肠"。此外，在寻找最近邻居的过程中，我还惊喜地发现"猫"离"野兽"和"怪物"都很近。

数学计算---点积

有一个有用的数学概念，尤其对于接下来的章节非常重要，那就是两个向量的点积可以被视为一种衡量它们是否对齐的方法。从计算角度看点积涉及到逐一乘以对应元素，然后进行求和，这很好，因为很多计算看起来就像是权重求和。从几何角度来看，当两个向量指向相似方向时，点积为正;如果它们垂直，点积为零;当它们指向相反方向时，点积为负。

例如，假设你在测试这个模型，从"cats"（复数）的向量表示中减去"cat"（单数）的向量表示可能会在这个空间中找到表示复数概念的方向。为了验证这个观点，我将计算某个向量与一些特定的单数名词嵌入的点积，并将其与相应的复数名词的点积进行比较。如果你试一试，你会发现复数名词的点积值通常比单数的更高，这表明它们在某种方向上的对齐更为紧密。更有趣的是，如果你将这个点积操作应用到"一"、"二"、"三"等词汇的嵌入上，会发现得到的数值是逐渐增加的，就像能够量化地衡量模型认为一个词的"复数程度"。

GPT-3

GPT-3

再次说明，单词的嵌入方式是通过数据学习得到的。这种嵌入矩阵揭示了每个词汇的变化过程，它是模型中的第一批权重，根据GPT-3的数据，其词汇量具体为50,257，但要注意实际上它指的不是单词本身，而是Tokens。嵌入的维度是12,288，将这两者相乘得到大约有6.17亿个权重。将这个数字加入到累计计数中，最后应该得到1750亿个权重。

未完待续

欢迎收藏转发分享，随时可私信小编。

https://www.3blue1brown.com/lessons/gpthttps://arthurchiao.art/blog/visual-intro-to-transformers-zh/

Intel发布最新杀招Lunar Lake处理器

Google I/O 2024：新一代 I/O

GPT的Transformer技术工作原理演示

NVIDIA Blackwell架构和实现详解

53AI，大模型落地应用首选服务商

定位：开箱即用的大模型落地应用平台

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

年轻人！来一起搞AI吗?

如果你看见AI对商业世界的变革，欢迎来和我们一起探索~

岗位：销售经理

查看详情

岗位：项目经理

查看详情

岗位：产品经理

查看详情

岗位：测试工程师

查看详情

160+中大型企业正在使用53AI

立即咨询申请演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

2024-04-24

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

实测：本地跑llama3:70B需要什么配置

2024-04-24

超简单在本地部署Llama3的方案

2024-04-23

“大数据+”医疗

2024-04-11

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

RAG系列04：使用ReRank进行重排序

2024-03-22

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

2024-03-29

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

2024-04-25

大家都在问

实测：开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何？

2024-07-02

研发AI产品过程中，没有自研的数据处理以及机器学习平台时，可以使用哪些平台？

2024-07-02

为什么很多人都放弃LangChain了？

2024-07-01

ChatGPT、Claude的数据分析能力已经到了何种水平？

2024-07-01

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

2024-07-01

AI大模型：开源还是闭源？

2024-06-30

langchain创始人分享：什么是Agent？

2024-06-30

【AIGC FREE】Agent能“思考”吗？

2024-06-30

企业大模型落地应用平台

全员+AI

业务+AI

AIx业务

大模型咨询

大模型定制

年轻人！来一起搞AI吗?

岗位：销售经理

岗位：项目经理

岗位：产品经理

岗位：测试工程师

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

最强 GPT 免费使用！GPT4O 开启多模态新时代！

实测：本地跑llama3:70B需要什么配置

超简单在本地部署Llama3的方案

“大数据+”医疗

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

RAG系列04：使用ReRank进行重排序

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

大家都在问

实测：开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何？

研发AI产品过程中，没有自研的数据处理以及机器学习平台时，可以使用哪些平台？

为什么很多人都放弃LangChain了？

ChatGPT、Claude的数据分析能力已经到了何种水平？

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

AI大模型：开源还是闭源？

langchain创始人分享：什么是Agent？

【AIGC FREE】Agent能“思考”吗？

企业大模型落地应用平台

全员+AI

业务+AI

AIx业务

大模型咨询

大模型定制

年轻人！来一起搞AI吗?

岗位：销售经理

岗位：项目经理

岗位：产品经理

岗位：测试工程师

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

最强 GPT 免费使用！GPT4O 开启多模态新时代！

实测：本地跑llama3:70B需要什么配置

超简单在本地部署Llama3的方案

“大数据+”医疗

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

RAG系列04：使用ReRank进行重排序

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

大家都在问

实测：开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何？

研发AI产品过程中，没有自研的数据处理以及机器学习平台时，可以使用哪些平台？

为什么很多人都放弃LangChain了？

ChatGPT、Claude的数据分析能力已经到了何种水平？

【RAG论文】检索信息中的噪音是如何影响大模型生成的？

AI大模型：开源还是闭源？

langchain创始人分享：什么是Agent？

【AIGC FREE】Agent能“思考”吗？

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示