我要投稿

【一文读懂】RAG的重要组成-向量数据库

发布日期：2024-09-06 15:04:03 浏览次数： 4295

作者：码农随心笔记

微信搜一搜，关注“码农随心笔记”

向量数据库（Vector Database），看似莫测高深的一个名词，在众多AI技术文章中经常出现，那向量数据库究竟是个什么鬼呢？本篇深入浅出，为各位同学介绍一下它的相关知识。

什么是向量

首先，向量数据库中保存的就是向量数据了，那什么是向量呢？向量是一个数学概念，它可以表示为一个包含多个数值的列表，这些数值（也称为分量）按照一定顺序排列。在不同的上下文中，向量可以用来表示不同的事物。比如在日常生活中向量可以这样表示：

假设你想描述从家到学校的路线，你可以创建一个向量 [3, 2]。这里，3 表示向东走3个单位，2 表示向北走2个单位。
在3D建模中，物体的每个顶点位置都是通过三维空间中的向量来定义的。例如，一个点在3D空间中的位置可以表示为向量 [x, y, z]。
力是一个有大小和方向的量，可以用向量表示。例如，一个大小为10牛顿、方向向上的力可以表示为向量 [10, 1]。

向量的例子比比皆是，不难理解，覆盖了我们生活中的方方面面。向量表中每个分量的意义，可以根据不同的实际用途而自由定义。

AI中的向量

在AI领域中，将文本数据转换成向量的过程就像把书里的文字变成一种特殊的密码，让计算机能够读懂和处理，以下是几种常用的向量数据表示方法：

1. 词袋模型（Bag of Words, BoW）

词袋模型是一种简单的方法，它把文本看作一个单词的集合，不考虑单词的顺序。我们会先确定一个词汇表，统计每个单词在文本中出现的次数。

例子：

假设我们有两个句子：

句子1: "我喜欢猫"

句子2: "我喜欢狗"

我们先建立一个词汇表：["我", "喜欢", "猫", "狗"]

然后我们可以将每个句子表示为一个向量：

句子1: [1, 1, 1, 0] （"我"出现1次，"喜欢"出现1次，"猫"出现1次，"狗"出现0次）

句子2: [1, 1, 0, 1] （"我"出现1次，"喜欢"出现1次，"猫"出现0次，"狗"出现1次）

2. TF-IDF（Term Frequency-Inverse Document Frequency）

TF-IDF是对词袋模型的一个改进，它不仅考虑单词在单个文档中的频率，还考虑单词在整个语料库中的重要性。它对于常见的单词（如“的”、“是”）会赋予较低的权重。

如果继续使用上面的句子，我们计算每个单词的TF-IDF值，然后用向量表示。这样可以更好地区分文本之间的差异。

3. 词嵌入（Word Embedding）

词嵌入是一种将单词映射到高维空间中的方法，使得语义相似的单词在向量空间中也相近。常用的词嵌入模型有Word2Vec和GloVe。

例子：

在词嵌入中，单词“猫”和“狗”可能会被表示为如下向量：

“猫”: [0.5, 0.2, 0.1]

“狗”: [0.4, 0.2, 0.3]

在这个向量空间中，尽管具体数字不同，但“猫”和“狗”的向量相对更近，因为它们都是动物。

4. 句子或文档嵌入

除了单词，完整的句子或文档也可以被转化为向量，常用的模型有BERT等。它们可以理解上下文，使得同义句的向量更接近。

例子：

句子“我爱猫”和“我喜欢猫”可能在模型中被表示为：

“我爱猫”: [0.6, 0.5, 0.1]

“我喜欢猫”: [0.7, 0.4, 0.2]

尽管这两个句子的词不同，但它们的向量相似度较高，反映出它们的语义相近。

通过这个过程，原本复杂的文本数据就被转换成了计算机可以理解和处理的向量形式。这些向量可以被用来训练机器学习模型，让模型学会识别文本中的模式和关系，比如判断一个评论是正面的还是负面的，或者把一种语言翻译成另一种语言。

向量数据库的作用

我们把上述的向量数据放入数据库中，就形成了向量数据库。那向量数据库在RAG技术中能起到什么作用呢？其实也不难理解，向量数据库在大模型RAG（Retrieval-Augmented Generation，检索增强生成）技术中，可以通俗地理解为一个高效的“知识仓库”和“搜索引擎”，它帮助大语言模型快速找到并使用相关信息。