我要投稿

一口气讲清楚：向量库、训练集、多模态

发布日期：2025-04-18 09:59:33 浏览次数： 1555 作者：老张的求知思考世界

这是“一口气讲清楚”AI系列第三篇文章。

前面两篇文章，分别介绍了AGI、RAG、AIGC、LLM、MCP、EMB这六个在AI大模型领域的核心术语。想要真正了解AI大模型及各种工具的特点和原理，离不开这六个专业术语。

但如果想要进一步深入理解大模型的实现原理和当前阶段的大模型特性，就需要进一步了解它的训练过程，那这个时候就离不开这三个专业术语：向量库、训练集、多模态。

这篇文章，我会尽量用通俗易懂的语言，讲清楚这三个术语的含义，它的作用和背后的技术原理，帮助大家更好地理解AI。

一、向量库：Vector Database

向量库(Vector Database)是一种专门用于存储、管理和检索向量数据的数据库系统。

在人工智能领域，向量的定义通常指通过模型(如BERT、ResNet)将文本、图像、音频等非结构化数据转换为高维数值表示(例如由数百或数千个数值组成的序列)。这种转换称为嵌入(即前面提到的EMB)，旨在捕捉数据的语义或特征信息。

你可以理解为，向量化的过程类似于大数据领域的数据清洗，核心有两点：统一数据格式、统一存储。

例如：一段文本内容“可爱的猫咪”经过嵌入处理后，可能变成类似“[0.2, -1.3, 0.8, ..., 0.5]”的向量。而向量库的核心功能就是通过数学方法快速找到与用户输入的提示词(也称之为查询向量)相似的存储于向量库中的向量。

这里的快速检索相似向量的方法，类似于传统数据库中的索引功能。

1、向量库的核心特性

2、向量库的核心作用

3、向量库的使用场景

假设你要在电商平台搜索男士运动鞋，上传了一张自己鞋子的照片进行搜索，下面是AI搜索并返回结果的过程：

4、向量库的主流工具选型

工具选型的关键在于，支持的数据规模大小、数据检索时延(RT)、向量库的运维管理成本。

二、训练集：Training Set

训练集(Training Set)是机器学习中用于训练模型的数据集合，包含输入样本及对应的输出标签(特指监督学习)。

核心作用是让模型通过学习集合中的输入特征与目标变量之间的关联规律，不断调整模型本身的参数，进而做出预测(大模型是一个概率预测机器，通过解析用户输入内容，进行向量化，然后在向量库进行相似性检索，最终输出用户可能需要的答案)。

一句话概括：让模型通过大量数据训练，掌握数据关联逻辑，然后做出决策。

1、训练集的核心特点

代表性：必须涵盖模型可能遇到的所有场景(目前我们熟知的大模型大多是通用大模型，即全能型选手)。
标记准确性：监督学习的训练集标签必须正确(比如将输入样本“猫”标注为“狗”，模型就会学习错误规律，导致预测失效)。
充足性：样本数量需要足够多(大模型并不像人类具有联想能力，它只会死记硬背，无法幻想)。
相关性与均匀性：训练集数据必须与训练任务目标直接相关(人脸识别不能包含动物图片)，且数据分布需要保持均衡(金融交易训练集中，买入卖出样本比例需要接近真实情况，避免产生偏差，这也是量化交易的训练核心)。
复杂性：训练集需要包含边界值和脏数据(比如智能驾驶训练过程，要包含极端天气和复杂路况，不能只在无人的高速大直道训练)。