我要投稿

搭建RAG应用，Embedding模型如何选？

发布日期：2025-01-09 08:33:34 浏览次数： 2214 作者：7sh科技

在搭建RAG系统时，选择合适的Embedding模型是至关重要的一步，下面是我对选择Embedding模型时需要考虑的关键因素和建议，供您参考：

明确应用场景

首先，需要明确RAG系统的具体应用场景和需求。例如，是处理文本数据、图像数据还是多模态数据？不同的数据类型可能需要不同的Embedding模型。例如，对于文本数据，可以参考HuggingFace的MTEB（Massive Text Embedding Benchmark：衡量文本嵌入模型的评估指标合集）排行榜来选择适合的模型，或者上国内的魔搭社区看下排行榜。

通用与特定领域需求

其次，根据任务的通用性或特定性选择模型。如果您要实现的任务较为通用，不涉及太多领域的专业知识，可以选择通用的Embedding模型；如果任务涉及特定领域（如法律、医疗等、教育、金融等），则需要选择更适合该领域的模型。

多语言需求

如果您的系统中的知识库内容存在，需要支持多种语言，可以选择多语言Embedding模型，如BAAI/bge-M3、bce_embedding（中英）等，这些模型在多语言环境下表现较好。如果您的知识库中主要包含的都是中文数据，可以选择 iic/nlp_gte_sentence-embedding_chinese-base 等模型效果会更好。

性能评估

查看MTEB排行榜等基准测试框架评估不同模型的性能，这些排行榜覆盖了多种语言和任务类型，可以帮助你找到在特定任务上表现最佳的模型。其次需考虑模型的规模和资源限制，较大的模型可能提供更高的性能，但也会增加计算成本和内存需求。另外，较大的嵌入维度通常能提供更丰富的语义信息，但也可能导致更高的计算成本。因此，大家需要根据实际硬件资源和性能需求权衡选择。

实际测试与验证

最后，有条件的话，可以选择2-3个模型进行效果对比，在实际业务场景中测试和验证所选模型的性能，观察准确率和召回率等指标评估模型在特定数据集上的表现，并根据结果进行调整。

Embedding模型推荐

以下是5个主流的Embedding模型，推荐给大家用于搭建RAG系统做参考：

BGE Embedding：由智源研究院开发，支持多语言，提供多个版本，包括高效的reranker。该模型开源且许可宽松，适用于检索、分类、聚类等任务。

GTE Embedding：由阿里巴巴达摩院推出，基于BERT框架，适用于信息检索和语义相似性判断等场景，性能卓越。

Jina Embedding：由Jina AI的Finetuner团队打造，基于Linnaeus-Clean数据集训练，适用于信息检索和语义相似性判断，性能出众。

Conan-Embedding：这是一个针对中文优化的Embedding模型，在C-MTEB上达到了SOTA（State-of-the-Art）水平，特别适合需要高精度中文语义表示的RAG系统。

text-embedding-ada-002：由Xenova团队开发，与Hugging Face库兼容，提供高质量的文本向量表示，适用于多种NLP任务。

当然，还有Sentence-BERT、E5-embedding、Instructor等等，这些模型在不同的场景下表现情况也会有些差异，可以根据您具体需求和我上面列举的考虑因素，选择合适自己的模型来构建RAG系统。