微信扫码
与创始人交个朋友
我要投稿
BGE(BAAI General Embedding)是智源研究院打造的通用语义向量模型。自2023年8月发布以来,智源团队陆续发布了中英文模型BGE v1.0、v1.5以及多语言模型 BGE-M3,截至目前,BGE 系列模型全球下载量超过 1500万,位居国内开源AI模型首位。BGE-M3模型一度跃居 Hugging Face 热门模型前三,其所属代码仓库FlagEmbedding位居Github热门项目前10;BGE-M3所带来的全新的通用检索模式也相继被Milvus、Vespa等主流向量数据库集成。
近日,智源团队再度推出新一代检索排序模型 BGE Re-Ranker v2.0,同时扩展向量模型BGE的“文本+图片”混合检索能力。
BGE Re-Ranker v2.0 支持更多语言,更长文本长度,并在英文检索基准MTEB、中文检索基准C-MTEB、多语言检索基准MIRACL、LLaMA-Index Evaluation等主流基准上取得了state-of-the-art的结果。
BGE Re-Ranker v2.0 借助分层自蒸馏策略进一步优化推理效率,适度的开销即可换取显著的性能收益。
技术亮点
图1 RAG pipline
图2
BGE Re-Ranker v2-M3(如图2B):基于性能出色、参数量更小的 BGE-M3-0.5B(速度更快)。
2. 所有模型均通过多语言数据训练产生,具备多语言检索的能力。例如:BGE Re-Ranker v2-MiniCPM-2B 大幅提升了中英文检索能力,而BGE Re-Ranker v2-Gemma-2B与BGE Re-Ranker v2-M3则在多语言检索任务中取得了最佳的检索效果(注:BGE Re-ranker v2.0 系列模型训练数据配比见GitHub仓库说明)。
3. 为了进一步提升模型推理效率,BGE Re-Ranker v2.0 采取了分层自蒸馏训练策略(如图2C)。具体而言,模型最终排序得分(S(0))被用作教师信号,利用知识蒸馏的方式,模型的各中间层也被学习并赋予了排序能力。在实际应用中,用户可以基于具体场景的算力条件及时延限制灵活选择排序模型的层数。
4. BGE系列向量模型扩展“文本+图片”混合检索功能。通过引入由CLIP模型所生成的visual token,BGE得以获得“文本+图片”混合建模能力。值得注意的是,扩增visual token的训练仅仅作用在visual tokenizer之上,而原本的BGE模型(BGE v1.5,BGE M3)参数保持不变。因此,在获得混合建模能力的同时,BGE模型出色的文本检索能力得以完全保持。
表1
表4
表5
2. Milvus使用示例(详见[5])
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-14
2024-04-26
2024-03-30
2024-04-12
2024-05-10
2024-07-18
2024-05-22
2024-05-28
2024-04-25
2024-04-26