我要投稿

一文彻底搞懂Transformer - Word Embedding（词嵌入）

发布日期：2024-07-06 07:57:30 浏览次数： 5886

作者：架构师带你玩转AI

微信搜一搜，关注“架构师带你玩转AI”

Transformer

一、Word Embedding（词嵌入）

Word Embedding（词嵌入）：词嵌入技术是自然语言处理（NLP）领域的一项重大创新，它极大地推动了计算机理解和处理人类语言的能力。

通过将单词、句子甚至图像转换为数字向量，词嵌入技术不仅改善了文本的表示方式，更重要的是，它捕捉到了语言的本质和丰富的语义信息。

Word Embedding

词嵌入 vs ASCII：词嵌入与早期的文本表示方法，如ASCII相比，词嵌入技术具有显著的优势。ASCII虽然有效地实现了文本的渲染和传输，但它无法传递词汇的深层含义。而词嵌入技术则能够捕捉到单词之间的语义关系，使得计算机能够在语义层面理解和处理语言。

Word Embedding

语义搜索（Semantic Search）：Word Embedding这一创新使得语义搜索成为可能，我们能够更精准地理解和分析不同语言的文档。通过探索这些高级的数值表示形式，我们能够洞察计算机是如何开始理解人类语言的细微差别的。这一进步正在改变我们在数字时代处理信息的方式，使得我们能够更高效地处理和分析大量的文本数据。

Semantic Search

词嵌入的价值：词嵌入技术已经成为许多NLP任务的核心技术之一，包括语言模型（LLM）和Transformer等先进架构的初始输入形式。这些技术的发展进一步推动了NLP的进步，使得计算机能够更好地理解和生成人类语言，为智能交互、信息检索、机器翻译等领域带来了广泛的应用前景。

Embedding是Tranformer的初始输入

神经网络算法 - 一文搞懂Embedding（嵌入）

Transformer动画讲解 - 向量化

二、词嵌入模型

词嵌入模型：利用深度学习方法，通过训练大规模语料库来学习词的向量表示。这些模型，如Word2Vec和GloVe等，能够捕捉词的语义和语法信息，将词表示为高维空间中的向量。

词嵌入模型

在传统的自然语言处理任务中，词通常被表示为离散的符号，这种表示方式无法捕捉词之间的语义关系。而词嵌入模型则通过将词映射为连续的向量，使得语义上相似的词在向量空间中的位置相近，从而捕捉到了词之间的语义关系。

语义相似性

AI数学基础动画讲解 - 线性代数（向量）

Word2Vec：一种基于神经网络的词嵌入模型，它利用神经网络来训练词向量。在训练过程中，Word2Vec通过预测上下文中的词来学习词向量，使得语义上相似的词在向量空间中的距离更近。

它通过在大规模文本语料库上的训练，能够理解单词间复杂的关系，如同义词、反义词和关联词，这些都是通过向量空间的几何属性来实现的。

Word2Vec

Word2Vec工作原理：通过一个简单的双层神经网络来从大量文本中学习单词之间的联系。这一模型的设计基于一个核心假设：出现在相似语境中的单词在语义上是相似的。

Word2Vec

Word2Vec通过两种主要的训练算法来实现这一目标：连续词袋（CBOW）和Skip-Gram。这两种算法在处理单词上下文的方法上有所区别，但共同致力于捕捉单词之间的语义关系。

连续词袋（CBOW）

工作原理：CBOW模型通过上下文（即周围的词）来预测当前词。具体来说，它首先接收上下文中的多个词向量作为输入，然后通过对这些词向量的处理（如求和或平均）来预测目标词。
实现方式：CBOW模型通常包括输入层、隐藏层和输出层。输入层接收上下文词的one-hot编码，隐藏层通过权重矩阵将输入转换为低维的密集向量，输出层则使用softmax函数来预测目标词的概率分布。
优点：在处理大型语料库时，CBOW模型能够平滑许多分布信息，对于较小的数据集表现较好。

Skip-Gram

工作原理：与CBOW相反，Skip-Gram模型通过当前词来预测上下文中的词。它接收一个中心词的词向量作为输入，然后尝试预测该词周围一定窗口大小内的上下文词。
实现方式：Skip-Gram模型同样包括输入层、隐藏层和输出层。但在这里，输入层只接收中心词的one-hot编码，隐藏层同样通过权重矩阵转换为密集向量，而输出层则尝试为上下文中的每个词分配概率。
优点：Skip-Gram模型在处理较小数据集时表现更好，尤其是在捕捉稀有词上。此外，它通常能够学习到更细致的词向量表示。

Word2Vec

GloVe：GloVe（Global Vectors for Word Representation）全局词向量表示由斯坦福大学的研究人员开发。与传统的词嵌入方法相比，GloVe不仅关注单词的共现次数，还着重考虑了共现次数的比率，从而更深入地揭示了单词之间的语义关系。

Glove

这种方法使得GloVe能够同时捕捉到语言的局部和全局统计特性，为其在处理自然语言处理任务时提供了显著的优势。

语义关系的识别：通过分析词共现的概率，GloVe能够有效地识别单词之间的语义关系。这种方法比仅基于共现次数的方法更为精细，能够提供更丰富的语义信息。
混合方法：GloVe采用了一种混合方法，结合了全局矩阵分解和局部上下文窗口技术。这种方法使得GloVe能够为词汇提供更为全面的表示，既考虑了全局的统计信息，又保留了局部的上下文信息。
可扩展性强：GloVe具有很强的可扩展性，能够处理大规模的语料库和庞大的词汇量。这使得GloVe非常适合于分析网络级别的数据集，如互联网上的文本数据。

Glove

三、OpenAI Text Embedding

OpenAI Text Embedding：OpenAI的Text Embedding是一种将文本（如单词、短语、句子或段落）转换为固定大小的实数向量的技术，这些向量能够捕获文本中的语义信息，使得语义上相似的文本在嵌入空间中具有相似的向量表示。

OpenAI作为人工智能领域的领军企业，提供了多种Text Embedding模型，这些模型在文本分类、信息检索、语义相似性检测等场景中有着广泛的应用。

OpenAI Text Embedding

OpenAI Text Embedding的模型：text-embedding-ada-002、text-embedding-3-small、text-embedding-3-large

OpenAI Text Embedding

text-embedding-ada-002：这是OpenAI于2022年12月提供的一个embedding模型。该模型通过合并五个独立的模型（文本相似性、文本搜索-查询、文本搜索-文档、代码搜索-文本和代码搜索-代码）为一个新的模型，从而在一系列不同的文本搜索、句子相似性和代码搜索基准中表现出色。该模型的上下文长度为8192，嵌入尺寸为1536个维度，适合处理长文档，并且在处理矢量数据库时更具成本效益。
text-embedding-3-small和text-embedding-3-large：这是OpenAI在后续更新中推出的两个新文本嵌入模型。text-embedding-3-small是一个更小且高效的模型，而text-embedding-3-large则是一个更大且更强大的模型。这两个模型都使用了一种灵活的嵌入表征技术，允许开发人员根据任务需求权衡嵌入的性能和成本。具体来说，开发人员可以通过调整dimensions API参数来缩短嵌入向量的大小，从而在保持一定性能的同时降低计算成本