我要投稿

揭秘jina-embeddings-v3：如何打造多语言嵌入超人，解锁文本嵌入的新维度！

发布日期：2024-10-17 07:06:29 浏览次数： 3043

作者：老贾探AI

微信搜一搜，关注“老贾探AI”

文本嵌入模型是将文档转换为高维向量的技术，广泛应用于自然语言处理（NLP）和信息检索（IR）的各个领域。文本嵌入可以用于多种任务，包括分类、搜索以及聚类等。
增强型检索（RAG）系统中特别依赖文本嵌入技术来提高信息检索的质量。然而，传统的文本嵌入模型虽然设计上是通用的，但在实际应用时往往需要针对具体任务进行微调，并且在遇到常见问题时表现不佳。
为了克服上述局限性，我们今天介绍一个新款的文本嵌入模型：jina-embeddings-v3

点关注不迷路

简介

jina-embeddings-v3，一个新款的文本嵌入模型，拥有5.7亿参数，在100多种语言数据和长文本上下文检索任务上实现了最先进的性能，支持长达8192个token的上下文长度。该模型包括一组特定任务的低秩适应（LoRA）适配器，用于为查询-文档检索、聚类、分类和文本匹配生成高质量的嵌入。

在MTEB基准上的评估表明，jina-embeddings-v3不仅在英语任务上超越了OpenAI和Cohere的最新专有嵌入，而且在所有多语言任务上的表现超过了multilingual-e5-large-instruct。默认输出维度为1024，用户可以灵活地将嵌入维度降低到32而不会牺牲性能，这是通过套娃表示学习（Matryoshka Representation Learning）实现的。因此，jina-embeddings-v3被认为是更经济高效的方案，更适合于生产环境和边缘计算场景。

主要特性

扩展序列长度：通过RoPE支持最多8192个标记。
特定任务嵌入：可以通过任务参数来自定义嵌入，选项包括：

retrieval.query：用于非对称检索任务中的查询嵌入
retrieval.passage：用于非对称检索任务中的段落嵌入
separation：用于聚类和重排序应用中的嵌入
classification：用于分类任务中的嵌入
text-matching：用于衡量两个文本之间相似性的任务中的嵌入，例如STS或对称检索任务

嵌套式嵌入（Matryoshka Embeddings）：支持灵活的嵌入大小（32, 64, 128, 256, 512, 768, 1024位），允许截断嵌入以适应您的应用需求。

模型架构

jina-embeddings-v3 是一个为多种NLP应用设计的多语言多功能文本嵌入模型。基于Jina-XLM-RoBERTa架构，该模型支持旋转位置嵌入（Rotary Position Embeddings, RoPE），能够处理长达8192个标记的长输入序列。此外，它配备了5个LoRA适配器，可以高效生成特定任务的嵌入。

训练方法

我们使用原始XLM-RoBERTa模型的权重来初始化模型。然而，由于位置嵌入方法的变化，模型的原始MLM目标与我们的训练目标并不完全一致。尽管如此，我们观察到使用预训练权重初始化比随机初始化在预训练期间收敛得更快。我们的训练范式包括三个阶段，这在训练文本嵌入模型中很常见：

I 预训练：我们使用大型多语言文本语料库进行标准的MLM训练。模型使用XLM-RoBERTa权重进行初始化，以加快预训练速度，避免从头开始训练。
II 微调：为了学习如何将文本段落编码成单个向量表示，我们遵循Günther等人提出的方法。这种方法将池化层整合到transformer模型中，以将token表示聚合成单个嵌入向量，并在语义相关文本对上微调模型。
III 训练特定任务的适配器：我们使用专用数据集和特定任务的损失函数训练五个LoRA适配器（分类适配器、文本匹配适配器、不对称检索适配器、对称检索的失败分析、分离适配器），针对四种不同的任务进行优化，以针对每种用例优化性能。

评测总结

在中文任务上，jina-embeddings-v3展现出了强劲的性能。根据论文中的表格A4、A5、A6、A7、A8和A9，我们可以看到以下几点：

检索任务：

在表格A4中，jina-embeddings-v3在中文检索任务上的平均nDCG@10（一种衡量信息检索质量的指标）为69.40，表现优于multilingual-e5-large和text-embedding-3-large。
语义文本相似性（STS）任务：

在表格A5中，jina-embeddings-v3在中文STS任务上的平均Spearman相关性为59.38，同样优于multilingual-e5-large。

成对分类任务：

在表格A6中，jina-embeddings-v3在中文成对分类任务上的平均准确度为82.95，显示其在这类任务上具有很高的性能。

分类任务：

在表格A7中，jina-embeddings-v3在中文分类任务上的平均准确度为69.07，优于multilingual-e5-large。

聚类任务：

在表格A8中，jina-embeddings-v3在中文聚类任务上的平均v-measure（一种衡量聚类性能的指标）为46.47，表现良好。

重排任务：

在表格A9中，jina-embeddings-v3在中文重排任务上的平均MAP（平均精度）为66.57，展现了其在重排任务上的实力。

综上所述，jina-embeddings-v3在处理中文任务时，无论是在检索、语义文本相似性、成对分类、分类、聚类还是重排任务上，都显示出了强大的性能和鲁棒性。这表明jina-embeddings-v3是一个在多语言环境下，特别是中文环境下，具有很高实用价值的文本嵌入模型。

结论

本文介绍了最新的文本嵌入模型jina-embeddings-v3。通过使用特定任务的适配器调整和针对常见故障设计的数据增强技术（RAG），结合一个强大的基础架构，该模型在多种任务上展现了出色的性能。在英语及多语言数据集上的测试表明，jina-embeddings-v3能在保持相对较小参数规模的同时提供优秀的性能。研究还特别关注了提高模型对于资源较少的语言的支持能力，并深入探讨了因数据不足导致的系统性问题。