微信扫码
与创始人交个朋友
我要投稿
“ 向量是大模型的基石,嵌入是大模型的入口 ”
最近在研究RAG然后带来了对嵌入与向量的思考;毕竟嵌入与向量是实现大模型的基础;嵌入解决的是数据向量化的问题,而向量解决的是数据之间的关系问题。
Embedding中文翻译是嵌入,但更形象的理解是——在机器学习和大模型中,嵌入是一种数据向量化或向量表示的技术;简单来说就相当于一个转换器,把人类能够理解的数据包括文本,图像等转换为大模型方便处理的向量数据。
而向量是数学概念中的一个表示有大小和方向的量,其空间几何意义就是一个带有方向的箭头,并且可以平移;而更直观的理解可以把向量当成一个多维矩阵,更确切的说是用多维矩阵来描述向量。
因此,我们在大模型技术中所说的向量指的并不是空间维度;而是数据所构成的维度。所以说,向量是一个数学概念,而矩阵是向量在计算机中的载体。
嵌入与向量
向量
向量在数学上表示的一个有方向和大小的量,在计算机中的载体是一个多维矩阵;因此向量从某些方面讲就具备矩阵的性质,比如维度变换。
在大模型中数据一半通过多维矩阵来描述,比如大模型参数中有一个很重要的参数就是维度(dimension);这个维度指的就是多维矩阵的维度,维度越高,能够表示的场景就越复杂。
但同样,由于矩阵中存在着太多无用数据;因此就产生了密集矩阵和稀疏矩阵的区别;而稀疏矩阵可以通过降维的方式来压缩其矩阵大小,以此来获取更高的存储效率。
高维矩阵与低维矩阵的区别就类似于图片中的像素点;像素点越多,图片质量越好,观感上就更细腻;而像素点越低,图像就越模糊,丢失的东西就越多。
但同样的图片效果怎么样,除了像素点之外还有你观看距离的影响,离得越远,像素点的影响越小。
而为了解决近距离观看的效果,升维就有了用武之地;而远距离观看,就可以对数据进行降维处理,节省空间,提升效率。
而至于怎么描述数据之间的语义关系,就是通过向量之间的计算——比如欧式距离,余弦,内积等。
嵌入
嵌入虽然本质上都是把离散数据映射到高维矩阵中,通过向量的空间关系来捕捉数据之间的语义关系;但其在不同的场景中又有一定的区别。
词嵌入
词嵌入是将单词映射为数值向量,以捕捉单词间的语义和句法关系,为自然语言处理任务提供有效的特征表示。
方法与技术:词嵌入通过预测单词上下文(如Word2Vec)或全局词频统计(如GloVe)来学习,也可使用深度神经网络捕捉更复杂的语言特征。
图像嵌入
图像嵌入是将图像转换为低维向量,以简化处理并保留关键信息供机器学习使用。
方法与技术:利用深度学习模型(如CNN)抽取图像特征,通过降维技术映射到低维空间,训练优化嵌入向量。
在机器学习中,Embedding 主要是指将离散的高维数据(如文字、图片、音频)映射到低纬度的连续向量空间。这个过程会生成由实数构成的向量,用于捕捉原始数据的潜在的关系和结构。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-08-13
2024-04-26
2024-08-21
2024-07-09
2024-06-13
2024-08-04
2024-04-11
2024-07-18
2024-07-01