AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Embedding、向量模型怎么选?知识库准不准还得看它

发布日期:2025-03-16 13:04:37 浏览次数: 1569 来源:哈尔小文
推荐语

掌握知识库准确性,探索Embedding与向量模型的奥秘。

核心内容:
1. Embedding技术与向量模型的定义及其层级关系
2. Embedding技术在文本和图像处理中的应用案例
3. 2025年3月常见Embedding模型的排行总结及其性能对比

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

概念定义与层级关系

  1. Embedding(嵌入模型)指‌将非结构化数据(如文本、图像)转换为低维稠密向量的技术或过程,其核心目标是‌捕捉数据语义特征,例如:

  • 文本Embedding:将句子映射为1536维向量,使语义相似的句子向量距离更近‌;

  • 图像Embedding:将图片转换为向量,支持跨模态检索‌。

  • 向量模型(Vector Model)指‌直接使用Embedding生成的向量进行任务处理的模型,属于Embedding技术的下游应用,例如:

    • 分类模型:基于向量训练分类器(如SVM、神经网络)完成情感分析‌;

    • 检索模型:通过向量相似度计算实现语义搜索(如Gemini Embedding的文档检索功能)‌

    向量模型是属于‌应用优化型Embedding模型的子集,强调‌性能与场景适配性的增强

    常见Embedding模型排行总结

    数据截至2025年3月份

    排名(Borda) 模型 零样本学习 参数数量 嵌入维度 最大令牌数 任务平均得分(Mean (Task)) 任务类型平均得分(Mean (TaskType)) 双语挖掘 分类 聚类 指令检索 多标签分类 成对分类 重排序 检索 语义文本相似度(STS)
    1 gemini-embedding-exp-03-07 99 未知 3072 8192 68.32 59.64 79.28 71.82 54.99 5.18 29.16 83.63 65.58 67.71 79.4
    2 Linq-Embed-Mistral 99 70亿 4096 32768 61.47 54.21 70.34 62.24 51.27 0.94 24.77 80.43 64.37 58.69 74.86
    3 gte-Qwen2-7B-instruct -1 70亿 3584 32768 62.51 56 73.92 61.55 53.36 4.94 25.48 85.13 65.55 60.08 73.98
    4 multilingual-e5-large-instruct 99 5.6亿 1024 514 63.23 55.17 80.13 64.94 51.54 -0.4 22.91 80.86 62.61 57.12 76.81
    5 SFR-Embedding-Mistral 96 70亿 4096 32768 60.93 54 70 60.02 52.57 0.16 24.55 80.29 64.19 59.44 74.79
    6 GritLM-7B 99 70亿 4096 4096 60.93 53.83 70.53 61.83 50.48 3.45 22.77 79.94 63.78 58.31 73.33
    7 text-multilingual-embedding-002 99 未知 768 2048 62.13 54.32 70.73 64.64 48.47 4.08 22.8 81.14 61.22 59.68 76.11
    8 GritLM-8x7B 99 570亿 4096 4096 60.5 53.39 68.17 61.55 50.88 2.44 24.43 79.73 62.61 57.54 73.16
    9 e5-mistral-7b-instruct 99 70亿 4096 32768 60.28 53.18 70.58 60.31 51.39 -0.62 22.2 81.12 63.82 55.75 74.02
    10 Cohere-embed-multilingual-v3.0 -1 未知 512 未知 61.1 53.31 70.5 62.95 47.61 -1.89 22.74 79.88 64.07 59.16 74.8
    11 gte-Qwen2-1.5B-instruct -1 10亿 8960 32768 59.47 52.75 62.51 58.32 52.59 0.74 24.02 81.58 62.58 60.78 71.61
    12 bilingual-embedding-large 98 5.59亿 1024 514 60.94 53 73.55 62.77 47.24 -3.04 22.36 79.83 61.42 55.1 77.81
    13 text-embedding-3-large -1 未知 3072 8191 58.92 51.48 62.17 60.27 47.49 -2.68 22.03 79.17 63.89 59.27 71.68
    14 SFR-Embedding-2_R 96 70亿 4096 32768 59.84 52.91 68.84 59.01 54.33 -1.8 25.19 78.58 63.04 57.93 71.04
    15 jasper_en_vision_language_v1 92 10亿 8960 131072 60.63 0.26 22.66 55.12 71.5
    16 stella_en_1.5B_v5 92 10亿 8960 131072 56.54 50.01 58.56 56.69 50.21 0.21 21.84 78.47 61.37 52.84 69.91
    17 NV-Embed-v2 92 70亿 4096 32768 56.25 49.64 57.84 57.29 41.38 1.04 18.63 78.94 63.82 56.72 71.1
    18 Solon-embeddings-large-0.1 -1 5.59亿 1024 514 59.63 52.11 76.1 60.84 44.74
    19 Voyage-lite-01 89 3.5亿 512 2048 58.21 51.3 65.72 57.83 45.12 -1.5 20.55 76.34 60.12 53.89 69.75
    20 text-embedding-ada-002 -1 未知 1536 8191 57.89 50.91 63.45 59.01 46.78 -2.1 21.37 77.92 61.05 57.14 70.23
    21 BGE-M3 99 5.6亿 1024 8192 65.1 57.4 82.3 67.1 53.8 4.2 26.9 84.7 66.2 63.5 78.9
    22 gte-large-en-v1.5 95 5.6亿 1024 512 59.8 52.6 72.4 61.8 50.2 1.8 23.5 80.1 62.7 58.9 75.3
    23 NV-Embed-v1 90 70亿 4096 32768 55.78 49.12 56.93 56.41 40.25 0.87 18.02 77.65 62.15 55.03 70.44
    24 E5-base-v2 94 3.4亿 768 512 58.63 51.75 70.12 59.34 49.01 -0.75 21.89 79.02 60.98 56.47 74.16
    25 M3E-base 92 2.2亿 768 512 57.92 50.83 68.45 58.21 47.92 -1.23 20.75 78.12 59.34 54.89 72.56
    26 text-embedding-v2.0 -1 未知 512 4096 56.45 49.78 61.23 55.89 44.12 -2.45 19.78 75.45 58.23 52.67 68.94
    27 Instructor-XL 91 13亿 1024 512 59.12 52.04 71.34 60.45 48.67 1.23 22.45 79.89 61.23 57.45 73.12
    28 all-mpnet-base-v2 88 1.1亿 768 514 56.78 50.12 67.45 57.23 46.78 -0.89 20.12 76.89 58.45 53.78 71.45
    29 contriever-base 85 1.1亿 768 512 55.23 48.89 63.12 54.78 43.45 -1.56 18.89 74.56 56.12 51.23 69.12
    30 bge-small-en-v1.5 90 3.4亿 384 512 57.45 50.56 66.78 56.89 45.23 -0.45 19.56 75.89 57.45 54.12 70.78


    全英文Embedding模型对比分析表

    基于MTEB基准测试与开源生态,以下是主流英文嵌入模型的核心指标对比:

    模型名称 任务平均分 检索得分 语义相似度 (STS) 开源状态 向量维度 最大序列长度 适用场景推荐
    Gemini-Embedding-Exp 68.32 ‌ 67.71 ‌ 79.4 ‌ 闭源 3072 8192 高精度语义匹配、搜索引擎优化
    BGE-M3 65.10 ‌ 63.50 ‌ 78.9 ‌ 开源 ‌ 1024 8192 多语言混合检索、企业知识库
    Linq-Embed-Mistral 61.47 ‌ 58.69 ‌ 74.86 ‌ 闭源 4096 32768 长文档分析、学术论文解析
    gte-Qwen2-7B 62.51 ‌ 60.08 ‌ 73.98 ‌ 开源 ‌ 3584 32768 长文本生成式问答、指令检索
    Cohere-embed-v3.0 61.10 ‌ 59.16 ‌ 74.80 闭源 512 未公开 边缘计算、轻量化部署
    multilingual-e5-large 63.23 ‌ 57.12 ‌ 76.81 开源 ‌ 1024 514 多任务平衡、通用语义理解


    全中文Embedding模型对比分析表

    基于中文场景任务优化与开源生态,以下是主流中文嵌入模型的核心指标对比:

    模型名称 开源状态 向量维度 最大序列长度 中文语义相似度 中文检索能力 适用场景推荐 关键优势与限制
    BGE-M3 开源 ‌ 1024 8192 78.9 ‌ 63.50 ‌ 多语言混合检索、企业知识库 支持100+语言,跨语言得分82.3,需高计算资源‌
    M3E-base 开源 ‌ 768 512 72.56 ‌ 54.89 ‌ 通用语义理解、短文本分类 轻量化部署,中文任务优化,但长文本支持弱‌
    Text2Vec-large 开源 ‌ 1024 512 75.30 ‌ 55.62 ‌ 高精度语义匹配、问答系统 中文单语言优化,开源社区微调方案成熟‌
    Ernie-3.0 开源 ‌ 768 2048 76.81 ‌ 57.12 ‌ 长文本摘要、内容推荐系统 百度自研,融合知识图谱,但长序列推理延迟较高‌
    众安Embedding 闭源 ‌ 未公开 未公开 78.2 ‌ 61.8 ‌ 金融/法律专业领域解析 中文FAQ数据集表现优异,但模型细节未开放‌
    Jina-embeddings-v2 开源 ‌ 512 8192 71.10 ‌ 56.72 ‌ 多模态混合检索、边缘计算 支持中英双语,内存占用低,但语义精度中等‌


    中英文混合Embedding模型对比分析表

    基于跨语言任务优化与开源生态,以下是主流中英文混合嵌入模型的核心指标对比:

    模型名称 开源状态 支持语言 关键指标 适用场景推荐 核心优势与限制
    BGE-M3 开源 ‌ 中英+100+语言 ‌ 跨语言得分82.3,检索63.5,语义78.9‌1 多语言知识库、跨语言搜索 开源生态完善,需较高计算资源‌
    Nomic-ai/nomic-embed-text 开源 ‌ 中英+多语言 ‌ 长文本支持8192 tokens,检索61.2‌3 长文档混合解析、法律合同 完全开源,长文本性能优于OpenAI‌
    Gemini Embedding 闭源 ‌ 中英+主要语言 ‌ 语义相似度79.4,检索67.71‌3 高精度混合语义匹配 闭源API调用,需接受数据隐私风险‌
    Jina-embeddings-v2 开源 ‌ 中英双语 ‌ 内存占用低(512维),QPS≥1200‌7 边缘计算、轻量化混合场景 推理速度快,但语义精度中等‌
    multilingual-e5-large 开源 ‌ 中英+100+语言 ‌ 任务平均分63.23,语义76.81‌5 通用语义理解、多任务平衡 开源模型中跨语言性能均衡‌
    众安Embedding 闭源 ‌ 中英+垂直领域 ‌ 金融/法律领域语义78.2,检索61.8‌5 专业领域混合文本解析 垂直场景表现优,技术细节未公开‌


    BGE系列Embedding模型对比分析表


    基于检索增强生成(RAG)需求与模型特性,以下是BGE系列模型的核心差异与配置要求对比:

    模型名称 核心特性 向量维度 最大序列长度 多语言支持 训练方法 适用场景 最低配置要求
    BGE-M3 支持100+语言、长文本(8192 tokens)、稠密/稀疏/多向量三模式检索‌ 1024 8192 ✔️ RetroMAE预训练+无监督对比学习‌ 多语言混合检索、长文档RAG 16GB显存,多核CPU
    bge-m3-unsupervised 仅通过无监督对比学习优化,跨语言能力弱于完整版BGE-M3‌ 1024 8192 ✔️ 无监督对比学习 低成本多语言初步实验 8GB显存
    bge-m3-retromae 仅包含RetroMAE预训练阶段,未集成多检索功能‌ 1024 8192 ✔️ RetroMAE预训练 长文本语义理解基础研究 12GB显存
    bge-large-en-v1.5 英文专用高精度模型,MTEB英文任务平均分63.5‌ 1024 512 监督微调+对比学习 纯英文高精度检索 8GB显存,4核CPU
    bge-base-en-v1.5 平衡版英文模型,精度略低于Large版,推理速度提升30%‌ 768 512 监督微调+对比学习 英文通用场景+中等资源环境 4GB显存,2核CPU
    bge-small-en-v1.5 轻量化英文模型,内存占用仅为Large版的1/3‌ 512 512 监督微调+对比学习 边缘设备部署、实时性优先场景 2GB显存,单核CPU


    RAG选型建议

    1. 多语言混合场景

    • 首选‌:BGE-M3(完整版)支持100+语言混合检索与8192 tokens长文本处理,三模式检索(稠密+稀疏+多向量)可提升RAG召回率‌36。需16GB显存及多核CPU支持‌。

    • 替代方案‌:bge-m3-retromae若无需多检索功能,可降低显存需求至12GB,但牺牲检索灵活性‌。

    2. 纯英文高精度场景

    • 高精度需求‌:bge-large-en-v1.5在英文MTEB任务中平均分63.5,优于BGE-M3的英文子项得分(61.2)‌。需8GB显存。

    • 性价比选择‌:bge-base-en-v1.5精度下降约5%,但推理速度提升30%,适合中等规模服务器‌。

    3. 资源受限环境

    • 轻量化部署‌:bge-small-en-v1.5512维向量仅需2GB显存,QPS可达1800+,适合移动端或低功耗设备‌。

    • 低成本实验‌:bge-m3-unsupervised无监督版本可减少标注数据依赖,但跨语言能力较弱‌

    Embedding排行榜

    Huggingface上的mteb是一个海量Embeddings排行榜,定期会更新Huggingface开源的Embedding模型各项指标,进行一个综合的排名,大家可以根据自己的实际应用场景,选择适合自己的Embedding模型。

    Embedding排行地址 


    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询