我要投稿

如何选择合适的 Embedding 模型？

发布日期：2024-06-26 17:32:33 浏览次数： 3837 作者：Zilliz

检索增强生成（RAG）是生成式 AI （GenAI）中的一类应用，支持使用自己的数据来增强 LLM 模型（如 ChatGPT）的知识。

RAG 通常会用到三种不的AI模型，即 Embedding 模型、Rerankear模型以及大语言模型。本文将介绍如何根据您的数据类型以及语言或特定领域（如法律）选择合适的 Embedding 模型。

文本数据：MTEB 排行榜

HuggingFace 的 MTEB leaderboard 是一个一站式的文本 Embedding 模型榜！您可以了解每个模型的平均性能。

您可以将“Retrieval Average”列进行降序排序，因为这最符合向量搜索的任务。然后，寻找排名最高、占内存最小的模型。

Embedding 向量维度是向量的长度，即 f(x)=y 中的 y，模型将输出此结果。
最大 Token 数是输入文本块的长度，即 f(x)=y 中的 x ，您可以输入到模型中。

除了通过 Retrieval 任务排序外，您还可以根据以下条件进行过滤：

语言：支持法语、英语、中文、波兰语。（例如：task=retrieval,
Language=chinese）
法律领域文本。
（例如：task=retrieval，Language=law）

值得注意的是，由于部分训练数据最近才得以公开，一些 MTEB 上的 Embedding 模型可能是看似合适但实际不合适的模型，排名虚高，实际表现可能会有所不同。因此，HuggingFace 发布了一篇博客，介绍了判断模型排名是否可信的要点。点击模型链接（称为“模型卡片”）后：

寻找解释模型如何训练和评估的博客和论文。仔细查看模型训练使用的语言、数据和任务。同时，寻找由知名公司创建的模型。例如，在 voyage-lite-02-instruct 模型卡片上，您会看到其他的 VoyageAI 模型列出，但不包括这个。这是一个提示！该模型是一个overfitting 模型，不应使用！
在下面的截图中，我会尝试来自 Snowflake 的新模型“snowflake-arctic-embed-1”，因为它排名较高，体积小到足以在我的笔记本电脑上运行，并且模型卡片上有博客和论文的链接。

使用 HuggingFace 的好处就是，在选择完 Embedding 模型后，如果您需要更换模型，只需要在代码中修改 model_name 即可！

import torchfrom sentence_transformers import SentenceTransformer
# Initialize torch settingstorch.backends.cudnn.deterministic = TrueDEVICE = torch.device('cuda:3' if torch.cuda.is_available() else 'cpu')
# Load the model from huggingface.model_name = "WhereIsAI/UAE-Large-V1"  # Just change model_name to use a different model!encoder = SentenceTransformer(model_name, device=DEVICE)
# Get the model parameters and save for later.EMBEDDING_DIM = encoder.get_sentence_embedding_dimension()MAX_SEQ_LENGTH_IN_TOKENS = encoder.get_max_seq_length()
# Print model parameters.print(f"model_name: {model_name}")print(f"EMBEDDING_DIM: {EMBEDDING_DIM}")print(f"MAX_SEQ_LENGTH: {MAX_SEQ_LENGTH_IN_TOKENS}")