微信扫码
与创始人交个朋友
我要投稿
在搭建RAG系统时,选择合适的Embedding模型是至关重要的一步,下面是我对选择Embedding模型时需要考虑的关键因素和建议,供您参考:
明确应用场景
首先,需要明确RAG系统的具体应用场景和需求。例如,是处理文本数据、图像数据还是多模态数据?不同的数据类型可能需要不同的Embedding模型。例如,对于文本数据,可以参考HuggingFace的MTEB(Massive Text Embedding Benchmark:衡量文本嵌入模型的评估指标合集)排行榜来选择适合的模型,或者上国内的魔搭社区看下排行榜。
通用与特定领域需求
其次,根据任务的通用性或特定性选择模型。如果您要实现的任务较为通用,不涉及太多领域的专业知识,可以选择通用的Embedding模型;如果任务涉及特定领域(如法律、医疗等、教育、金融等),则需要选择更适合该领域的模型。
多语言需求
如果您的系统中的知识库内容存在,需要支持多种语言,可以选择多语言Embedding模型,如BAAI/bge-M3、bce_embedding(中英)等,这些模型在多语言环境下表现较好。如果您的知识库中主要包含的都是中文数据,可以选择 iic/nlp_gte_sentence-embedding_chinese-base 等模型效果会更好。
性能评估
查看MTEB排行榜等基准测试框架评估不同模型的性能,这些排行榜覆盖了多种语言和任务类型,可以帮助你找到在特定任务上表现最佳的模型。其次需考虑模型的规模和资源限制,较大的模型可能提供更高的性能,但也会增加计算成本和内存需求。另外,较大的嵌入维度通常能提供更丰富的语义信息,但也可能导致更高的计算成本。因此,大家需要根据实际硬件资源和性能需求权衡选择。
实际测试与验证
最后,有条件的话,可以选择2-3个模型进行效果对比,在实际业务场景中测试和验证所选模型的性能,观察准确率和召回率等指标评估模型在特定数据集上的表现,并根据结果进行调整。
Embedding模型推荐
以下是5个主流的Embedding模型,推荐给大家用于搭建RAG系统做参考:
BGE Embedding:由智源研究院开发,支持多语言,提供多个版本,包括高效的reranker。该模型开源且许可宽松,适用于检索、分类、聚类等任务。
GTE Embedding:由阿里巴巴达摩院推出,基于BERT框架,适用于信息检索和语义相似性判断等场景,性能卓越。
Jina Embedding:由Jina AI的Finetuner团队打造,基于Linnaeus-Clean数据集训练,适用于信息检索和语义相似性判断,性能出众。
Conan-Embedding:这是一个针对中文优化的Embedding模型,在C-MTEB上达到了SOTA(State-of-the-Art)水平,特别适合需要高精度中文语义表示的RAG系统。
text-embedding-ada-002:由Xenova团队开发,与Hugging Face库兼容,提供高质量的文本向量表示,适用于多种NLP任务。
当然,还有Sentence-BERT、E5-embedding、Instructor等等,这些模型在不同的场景下表现情况也会有些差异,可以根据您具体需求和我上面列举的考虑因素,选择合适自己的模型来构建RAG系统。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-09
从RAG到RAG+:让大模型更懂业务的权威指南
2025-01-09
Java开发者LLM实战——使用LangChain4j构建本地RAG系统
2025-01-09
RAG 的总结整理
2025-01-09
RAG的技术困境:为何单纯依赖向量嵌入不可靠?
2025-01-09
Cache-Augmented Generation(CAG):一种更快、更简单的RAG替代方案
2025-01-09
搭建RAG架构,如何选择向量数据库产品?
2025-01-08
EdgeRAG: 检索增强生成的新篇章,开启边缘智能新时代
2025-01-08
抛弃 RAG!缓存增强生成或成知识任务新宠
2024-07-18
2024-09-04
2024-05-05
2024-06-20
2024-05-19
2024-07-09
2024-07-09
2024-06-13
2024-07-07
2024-07-07
2025-01-09
2025-01-09
2025-01-09
2025-01-06
2025-01-04
2024-12-30
2024-12-27
2024-12-26