微信扫码
与创始人交个朋友
我要投稿
文本嵌入模型是将文档转换为高维向量的技术,广泛应用于自然语言处理(NLP)和信息检索(IR)的各个领域。文本嵌入可以用于多种任务,包括分类、搜索以及聚类等。
增强型检索(RAG)系统中特别依赖文本嵌入技术来提高信息检索的质量。然而,传统的文本嵌入模型虽然设计上是
通用的
,但在实际应用时往往需要针对具体任务进行微调,并且在遇到常见问题时表现不佳
。为了克服上述局限性,我们今天介绍一个新款的文本嵌入模型:
jina-embeddings-v3
点关注不迷路
jina-embeddings-v3,一个新款的文本嵌入模型,拥有5.7亿参数,在100多种语言数据和长文本上下文检索任务上实现了最先进的性能,支持长达8192个token的上下文长度。该模型包括一组特定任务的低秩适应(LoRA)适配器,用于为查询-文档检索、聚类、分类和文本匹配生成高质量的嵌入。
在MTEB基准上的评估表明,jina-embeddings-v3不仅在英语任务上超越了OpenAI和Cohere的最新专有嵌入,而且在所有多语言任务上的表现超过了multilingual-e5-large-instruct。默认输出维度为1024,用户可以灵活地将嵌入维度降低到32而不会牺牲性能,这是通过套娃表示学习(Matryoshka Representation Learning)实现的。因此,jina-embeddings-v3被认为是更经济高效的方案,更适合于生产环境和边缘计算场景。
jina-embeddings-v3 是一个为多种NLP应用设计的多语言多功能文本嵌入模型。基于Jina-XLM-RoBERTa架构,该模型支持旋转位置嵌入(Rotary Position Embeddings, RoPE),能够处理长达8192个标记的长输入序列。此外,它配备了5个LoRA适配器,可以高效生成特定任务的嵌入。
我们使用原始XLM-RoBERTa模型的权重来初始化模型。然而,由于位置嵌入方法的变化,模型的原始MLM目标与我们的训练目标并不完全一致。尽管如此,我们观察到使用预训练权重初始化比随机初始化在预训练期间收敛得更快。我们的训练范式包括三个阶段,这在训练文本嵌入模型中很常见:
I 预训练:我们使用大型多语言文本语料库进行标准的MLM训练。模型使用XLM-RoBERTa权重进行初始化,以加快预训练速度,避免从头开始训练。
II 微调:为了学习如何将文本段落编码成单个向量表示,我们遵循Günther等人提出的方法。这种方法将池化层整合到transformer模型中,以将token表示聚合成单个嵌入向量,并在语义相关文本对上微调模型。
III 训练特定任务的适配器:我们使用专用数据集和特定任务的损失函数训练五个LoRA适配器(分类适配器、文本匹配适配器、不对称检索适配器、对称检索的失败分析、分离适配器),针对四种不同的任务进行优化,以针对每种用例优化性能。
在中文任务上,jina-embeddings-v3展现出了强劲的性能。根据论文中的表格A4、A5、A6、A7、A8和A9,我们可以看到以下几点:
检索任务:
语义文本相似性(STS)任务:
成对分类任务:
分类任务:
聚类任务:
重排任务:
综上所述,jina-embeddings-v3在处理中文任务时,无论是在检索、语义文本相似性、成对分类、分类、聚类还是重排任务上,都显示出了强大的性能和鲁棒性。这表明jina-embeddings-v3是一个在多语言环境下,特别是中文环境下,具有很高实用价值的文本嵌入模型。
本文介绍了最新的文本嵌入模型jina-embeddings-v3。通过使用特定任务的适配器调整和针对常见故障设计的数据增强技术(RAG),结合一个强大的基础架构,该模型在多种任务上展现了出色的性能。在英语及多语言数据集上的测试表明,jina-embeddings-v3能在保持相对较小参数规模的同时提供优秀的性能。研究还特别关注了提高模型对于资源较少的语言的支持能力,并深入探讨了因数据不足导致的系统性问题。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-09
解码通用 AI Agent:七步构建你的智能系统
2025-01-08
dify案例分享-基于文本模型实现Fine-tune 语料构造工作流
2025-01-08
架构师必备LLM推理优化全解析:Nvidia分享的实用技巧,简单易懂!
2025-01-06
模型Prompt调优的实用技巧与经验分享
2025-01-06
大模型推理框架:Ollama和vLLM到底应该选哪个?
2025-01-06
大模型高效训练一体框架 LLaMA Factory
2025-01-06
增强大模型的推理能力:从思维链到连续思维链(上)
2025-01-06
LLM之模型评估:情感评估/EQ评估/幻觉评估等
2024-09-18
2024-07-11
2024-07-11
2024-07-26
2024-07-09
2024-06-11
2024-10-20
2024-07-20
2024-07-23
2024-07-12