AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


搭建RAG应用,Embedding模型如何选?
发布日期:2025-01-09 08:33:34 浏览次数: 1566 来源:7sh科技


在搭建RAG系统时,选择合适的Embedding模型是至关重要的一步,下面是我对选择Embedding模型时需要考虑的关键因素和建议,供您参考:

明确应用场景

首先,需要明确RAG系统的具体应用场景和需求。例如,是处理文本数据、图像数据还是多模态数据?不同的数据类型可能需要不同的Embedding模型。例如,对于文本数据,可以参考HuggingFace的MTEB(Massive Text Embedding Benchmark:衡量文本嵌入模型的评估指标合集)排行榜来选择适合的模型,或者上国内的魔搭社区看下排行榜。

通用与特定领域需求

其次,根据任务的通用性或特定性选择模型。如果您要实现的任务较为通用,不涉及太多领域的专业知识,可以选择通用的Embedding模型;如果任务涉及特定领域(如法律、医疗等、教育、金融等),则需要选择更适合该领域的模型。

多语言需求

如果您的系统中的知识库内容存在,需要支持多种语言,可以选择多语言Embedding模型,如BAAI/bge-M3、bce_embedding(中英)等,这些模型在多语言环境下表现较好。如果您的知识库中主要包含的都是中文数据,可以选择 iic/nlp_gte_sentence-embedding_chinese-bas等模型效果会更好。

性能评估

查看MTEB排行榜等基准测试框架评估不同模型的性能,这些排行榜覆盖了多种语言和任务类型,可以帮助你找到在特定任务上表现最佳的模型。其次需考虑模型的规模和资源限制,较大的模型可能提供更高的性能,但也会增加计算成本和内存需求。另外,较大的嵌入维度通常能提供更丰富的语义信息,但也可能导致更高的计算成本。因此,大家需要根据实际硬件资源和性能需求权衡选择。

实际测试与验证

最后,有条件的话,可以选择2-3个模型进行效果对比,在实际业务场景中测试和验证所选模型的性能,观察准确率和召回率等指标评估模型在特定数据集上的表现,并根据结果进行调整。

Embedding模型推荐

以下是5个主流的Embedding模型,推荐给大家用于搭建RAG系统做参考:

BGE Embedding:由智源研究院开发,支持多语言,提供多个版本,包括高效的reranker。该模型开源且许可宽松,适用于检索、分类、聚类等任务。

GTE Embedding由阿里巴巴达摩院推出,基于BERT框架,适用于信息检索和语义相似性判断等场景,性能卓越。

Jina Embedding由Jina AI的Finetuner团队打造,基于Linnaeus-Clean数据集训练,适用于信息检索和语义相似性判断,性能出众。

Conan-Embedding这是一个针对中文优化的Embedding模型,在C-MTEB上达到了SOTA(State-of-the-Art)水平,特别适合需要高精度中文语义表示的RAG系统。

text-embedding-ada-002由Xenova团队开发,与Hugging Face库兼容,提供高质量的文本向量表示,适用于多种NLP任务。

当然,还有Sentence-BERT、E5-embedding、Instructor等等,这些模型在不同的场景下表现情况也会有些差异,可以根据您具体需求和我上面列举的考虑因素,选择合适自己的模型来构建RAG系统。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询