微信扫码
添加专属顾问
我要投稿
探索LLM在语义嵌入领域的突破进展,洞悉其在NLP任务中的应用潜力。核心内容:1. 语义嵌入技术的重要性及其在NLP任务中的应用价值2. LLM技术如何推动语义嵌入技术的发展与革新3. 基于LLM的语义嵌入模型最新进展及其在搜索、推荐等任务中的应用前景
点击蓝字,关注我们
01
1.1 语义嵌入
文本语义嵌入,作为将文本映射到语义空间的关键技术,通过将原本高维且稀疏的向量转化为低维稠密向量,实现了对单词、句子乃至整个文档深层次语义信息的精确捕捉。这一技术在信息检索、问答系统、文本相似度计算及推荐系统等自然语言处理(NLP)的诸多任务中展现出广泛的应用价值。
早期语义嵌入方法,诸如 Word2vec 和 GloVe,主要基于统计特性构建,然而,这些方法受限于其静态性,难以充分捕捉自然语言复杂多变的上下文信息。随后,BERT 及其衍生的一系列上下文敏感模型(如 RoBERTa、DistilBERT、ALBERT 等)应运而生,通过独特的模型增强与优化策略,不仅保留了双向编码的核心优势,还显著提升了语义嵌入对上下文信息的感知能力。此外,Sentence-BERT 模型的提出,通过引入连体网络(Siamese Network)和三重网络(Triplet Network)结构,实现了高效的句子级嵌入生成。近年来,随着对比学习框架的兴起,如 SimCSE 等方法利用标准 dropout 作为噪声源,无需额外监督数据即可生成高质量的句子向量,进一步推动了语义嵌入技术的革新与发展。
当前研究热点聚焦于通用文本嵌入技术的优化,通过引入多阶段训练范式和复杂的数据混合策略,如 E5[1]、BGE[2]、GTE[3] 等模型,在数据规模、质量及多样性方面取得了显著进展。随着大语言模型(LLM)的蓬勃发展,利用 LLM 生成语义嵌入成为新的研究方向。研究者们通过合成高质量训练数据以提升嵌入性能,或直接以 LLM 作为模型主干生成嵌入,显著增强了语义嵌入的鲁棒性和泛化能力,为 NLP 领域的未来发展探索出了新的道路。
1.2 大语言模型(LLM)
LLM语义嵌入 |
传统语义嵌入 |
|
模型结构 |
LLM 通常具有更复杂的网络结构和更大的参数量,能够捕捉更丰富的语义和上下文信息。 |
通常是基于 Transformer 结构,通过预训练来学习文本的深度双向表示。 |
训练方式 |
LLM 通常在大规模无监督语料库上进行预训练,然后通过微调(fine-tuning)来适应特定的下游任务。这种训练方式使得LLM能够学习到广泛的语言知识和模式。 |
同样在大规模语料库上进行预训练,如 BERT,主要依赖于掩码语言模型(MLM)和下一句预测(NSP)两个任务。这些任务旨在捕捉文本的语义和上下文信息,但相较于LLM,训练方式更为特定和受限。 |
嵌入质量 |
由于 LLM 具有更大的模型容量和更复杂的网络结构,它能够捕捉到更细微和丰富的语义信息,从而生成更准确的嵌入表示。 |
同样能够捕捉到文本的语义信息,但在处理长文本或复杂上下文时,其性能可能受到模型容量和训练方式的限制。 |
应用场景 |
LLM 由于其强大的语义理解和生成能力,更适用于处理复杂的 NLP 任务,如机器翻译、对话系统、文本生成等。LLM 通常支持多种语言,能够处理跨语言的语义嵌入任务。 |
在多种 NLP 任务中得到了广泛应用,如文本分类、命名实体识别、情感分析等。但在某些特定领域或任务中,通常需要在该领域或任务上进行特定的微调和优化。 |
02
随着 LLM 的广泛应用,出现了一些利用 LLM 来生成语义嵌入的尝试。Jiang等人[7] 首次提出了基于提示(prompt)的句子嵌入方法,结合对比学习框架,通过设计如 “[X] means [MASK]” (其中,[X] 表示一个 placeholder,对应一个句子,[MASK] 则表示待预测的 token)的模板捕捉句子表征,并借助模板去噪避免语义偏向。随后,Zeng等人[8] 提出了 Prompt-derived Virtual semantic Prototypes(ConPVP)的对比学习方法,利用提示构建虚拟语义原型及否定原型,通过原型对比损失优化句子嵌入。Cheng等人[9] 则进一步提出了基于AI反馈(CLAIF)的句子嵌入对比学习方法,利用来自 LLM 的AI反馈来构建具有细粒度样本相似性分数的样本对,提升句子嵌入的监督对比学习的效果。
当前,利用 LLM 提升语义嵌入的研究热点聚焦于合成数据和模型骨干两大方向,如图 1 所示。下面将具体介绍各方向的一些代表模型。
2.1 合成数据
用改进的难负样本对 E5-mistral-7b-instruct 进行多任务微调,将性能提高了0.93%。主要结论有:
语义嵌入与聚类任务集成后检索性能显著提高,并通过多任务知识转移进一步增强检索性能。此外,通过采用多任务训练并使模型适应特定任务,可以增强泛化能力。
采用任务同构批处理,即同个batch里的所有样本来自于同个任务,这样可以保证对比学习的 in-batch negatives 更具挑战性。
之前的难负样本挖掘方法都是先通过检索将排序靠前的文档作为难负样本,这样有可能混入部分错误的负样本,影响模型训练结果。该方法发现使用排序在30-100之间的文档作为难负样本能提升模型性能,而使用排序在0-100之间的文档则容易引入错误的负样本,使用排序在50-100之间的文档则缺乏训练难度。
2.1.3 Gecko
【主要贡献】
Gecko 提出的主要思想:从 LLM 中提取知识到检索器中。使用两步蒸馏过程:首先使用 LLM 生成不同的任务-查询对数据。接下来通过为每个查询检索一组候选段落,并使用相同的 LLM 重新标记正样本和难负样本段落,进一步改进数据质量。
Gecko 选用 gtr-t5-xl (1.2B, encoder from T5-3B model) 模型骨架。通过将 LLM 生成的和经 LLM 排序的数据,与人工标注的数据相结合,Gecko 模型在 MTEB 基准上实现了较好性能。
【算法概述】
该方法利用知识蒸馏的思想,创建了一个两步骤的 LLM 驱动的嵌入模型。
其中 $p_{seed}$ 是从web语料库中随机抽取的一个段落,而 $P_{QG}$ 是一个固定的提示符。对于每个示例来说,提示模板是相同的,并且由几个示例和说明组成。LLM 生成一个任务描述 t(描述了检索的类型,如问答或事实检查)。通过对这些任务描述进行抽样,可以指导 LLM 生成与任务一致的查询 ?。
正负样本挖掘
首先,给定生成的查询 ?,使用一个嵌入模型来检索最相关的段落。然后,使用 LLM 根据检索到的段落与查询的相关性对它们进行排序。排序方法采用的是查询似然(query likelihood)和相关性分类(relevance classification)这两个少样本提示的 LLM 排序函数。最后将两种不同提示结果的排名与标准的倒数秩融合(RRF)方法集成在一起,获得排名函数?(?,?),并根据排名找到更多相关的正样本以及生成查询的难负样本。
2.2 模型骨干
另一类主流方法是将 LLM 作为语义嵌入的主干网络,原因在于它们无需遵循现有语义嵌入模型中普遍采用的对比预训练步骤,使得 LLM 在训练过程中能够更加灵活地处理文本数据。得益于全面的自回归预训练,LLM 能够充分捕捉到文本中的上下文信息和语义关系,具有出色的文本表征能力,并且仅需最少的微调即可转化为高效的通用文本嵌入模型。
同样,后续内容将着重介绍在 MTEB 基准测试中表现优异的几个语义嵌入模型。其中,NV-Embed-v2[13] 模型通过关注潜在向量并采用两阶段对比指令调优方法来提升性能;BGE-EN-ICL[14] 模型则利用LLM中的 in-context learning 能力来优化语义嵌入的生成;Echo-mistral[15] 模型采用双向注意机制,通过重复输入并提取第二次出现的嵌入来增强效果;LLM2Vec[16] 模型同样采用了双向注意力机制,还结合掩码下一个token预测以及无监督对比学习来提升嵌入效果;GRIT[17] 模型通过训练LLM和指令,实现了生成和嵌入任务的统一处理;GTE-Qwen1.5-7B-instruct[18] 模型则利用双向注意力机制、查询侧指令调优,并融合了弱监督与监督数据进行训练;最后,stella_en_1.5B_v5[19] 模型简化了提示的使用,为大多数通用任务提供了序列到段落(s2p)和序列到序列(s2s)两种便捷的提示方式。
【算法概述】
最后通过一个正则 MLP 层和平均池化来获得整个序列的嵌入。
为了进一步增强表征学习,在 decoder-only 的 LLM 对比训练过程中去掉了因果注意掩码,从而缓解了单向注意力对模型表示能力的限制。
模型训练
【主要贡献】
利用 LLM 中的in-context learning(ICL)能力来增强语义嵌入生成的过程。BGE-EN-ICL 模型使用少量示例来生成高质量的语义嵌入,直接将与任务相关的示例集成到查询端,从而在多种任务上取得了显著的改进。此外,还研究了如何有效地将 LLM 用作嵌入模型,包括各种注意力机制、池化方法等。
该模型采用 Mistral-7B 作为模型骨架,研究结果表明,保留原始框架往往能获得最佳结果。在 MTEB 基准测试上的实验结果目前排名第二。
【算法概述】
通过少样本对比训练实现 ICL 增强嵌入模型。考虑嵌入任务中的一个查询-段落对$(q_i , p_i )$,首先构建一个示例模板如下:
“task definition”表示特定嵌入任务的描述(图 6)。对于一个相关的查询-段落对$(q^+, p^+)$,修改后的查询构建如下:
2.2.3 Echo-mistral
【主要贡献】
自回归模型中由于存在因果注意力掩码,会导致token嵌入无法包含出现在输入中较靠后的token的信息。为了解决这一限制,Echo-mistral 模型中设计了 “Echo embeddings”(如图 7 所示),即使用双向注意:重复两次输入并从第二次出现中提取嵌入。原则上,第二次出现的语境化嵌入可以关注第一次中呈现的整个句子。此外,需要在 LLM 的提示信息中包括如“重写”或“重述”等词,从而尽可能确保第二次真的“编码”了关于第一次的信息。实验表明,Echo嵌入可以编码靠后token的信息,从而最大限度地利用 LLM 进行嵌入。
在 MTEB 排行榜上,Echo嵌入比传统嵌入提高了9%以上,在微调后提高了0.7%左右。与之前没有利用合成微调数据的开源模型相比,Mistral-7B 模型的Echo嵌入也有较大提升。
△图7: Echo嵌入概念介绍
LLM2Vec 选择 Llama-3 和 Mistral-7B 作为模型骨架,实验结果和广泛的分析表明,能够以参数高效的方式将 LLM 有效地转变为通用文本编码器,而无需额外的调整或利用 GPT-4 合成的数据。
【算法概述】
2.2.5 GRIT
【主要贡献】
Generative Representational Instruction Tuning (GRIT) 模型,与 Echo-mistral 和 LLM2Vec 的思想类似,也强调了双向注意力对通用文本嵌入的重要性。然而,生成式表征指令调优(GRIT)方法的关键在于,通过训练 LLM 和指令来统一处理生成和嵌入任务。对于长文本,不再需要单独的检索和生成模型,该模型可以将检索增强生成(RAG)的速度提高60%以上。模型骨架选用 Mistral-7b 和 Mistral-8x7b。
【算法概述】
GRIT 将表征式指令调优和生成式指令调优统一到了一个模型中。采用一致的数据格式,使用表征和生成式指令数据对预训练的 LLM 进行微调,如图 9 所示。对于表征数据,使用 in-batch negatives 的对比目标来计算损失,同时采用双向注意力机制,随后进行平均池化对序列长度上的最终隐藏状态进行平均。为了计算生成式数据的损失,GRIT 使用语言建模目标,即模型需要预测下一个 token。最后,将目标函数与损失权重$ λ_{Rep}$(表征式损失权重)和 $λ_{Gen}$(生成式损失权重)相加。
2.2.6 GTE-Qwen1.5-7B-instruct
【主要贡献】
GTE-Qwen1.5-7B-instruct 基于 GTE 嵌入模型和 Qwen1.5-7B LLM 所构建,借鉴了 Qwen1.5-7B 模型强大的自然语言处理能力。通过先进的嵌入训练技术,该模型融入了多项关键改进:
2.2.7 stella_en_1.5B_v5
【主要贡献】
该模型是基于 GTE-large-en-v1.5 和 GTE-Qwen2-1.5B-instruct 进行训练的。简化了提示的使用,为大多数通用任务提供了两个提示,一个是用于序列到段落(s2p)任务,另一个是用于序列到序列(s2s)任务。
2.3 方法小结
在本节中,我们详细阐述了基于 LLM 的通用文本嵌入算法模型(特别是在 MTEB 测试中排名前10的模型)。多数算法研究表明,通过全面的自回归预训练策略,LLM 能够习得高质量的文本表征,仅需少量微调即可转型为高效的通用文本嵌入模型。具体而言,微软提出的 E5-mistral-7b-instruct 与谷歌 DeepMind 的 Gecko 模型展示了两种创新途径,即通过 LLM 生成合成数据以进一步优化通用文本嵌入性能。同时,Echo-mistral 与LLM2Vec 的研究则强调,专为 decoder-only LLM 设计双向注意力机制,无需依赖合成数据,同样能实现出色的通用文本嵌入效果。BGE-EN-ICL 利用 LLM 中的 ICL 能力来增强文本嵌入生成的过程。NV-Embed-v2 设计了关注潜在向量的池化嵌入输出,并提出一种两阶段指令调优方法以提高检索和非检索任务的准确性。值得注意的是,本节介绍的所有专注于文本语义嵌入的 LLM 模型均采用了指令调优方法。这主要归因于 LLM 卓越的指令遵循能力,从而可以构建能够灵活应对多样化任务的通用文本嵌入模型的优选。此外,Mistral-7B 模型在 LLM 增强文本嵌入技术中是最流行的基线模型。其中一个关键因素在于,即便未经任何特定训练,为 Mistral-7B 启用双向注意力机制也已展现出了显著成效。LLM2Vec的作者据此推测,Mistral 模型可能已预先经历了某种形式的双向注意力训练。
03
本文开篇即对文本语义嵌入方法进行了系统性概述,剖析了当前主流算法模型的架构特征及其发展脉络与趋势。鉴于 LLM 的迅速崛起,文章进一步在多维视角下对比了 LLM 文本嵌入技术与传统语义嵌入方法之间的显著差异。传统的文本语义嵌入技术以其高效性、广泛应用性和强大的语义表示能力为众多任务提供了有力支持,在自然语言处理领域占据重要地位。然而,该技术也面临着数据依赖性、静态性以及计算资源消耗等瓶颈问题。相比之下,LLM 通过捕捉文本上下文信息、支持多语言处理及出色的生成能力,为提升文本嵌入质量带来了新视角。随后,核心内容聚焦于 LLM 在生成文本嵌入领域的最新研究进展。当前,研究界对通用文本嵌入模型给予了高度关注,该模型旨在构建一个统一且全面的框架,以灵活应对不同长度的输入文本、多样化的下游任务、广泛的领域覆盖以及多语言处理需求。为实现 LLM 在提升文本嵌入能力上的潜力,研究者们探索了两条主要路径:一是通过合成数据生成策略来增加训练数据多样性和灵活性;二是直接将 LLM 作为核心架构,来优化通用文本嵌入的性能。本文介绍了这两条路径下的代表性模型,这些前沿方法均在多文本嵌入基准测试(MTEB)排行榜上名列前茅,在训练数据的规模上实现了显著提升,同时在数据质量与多样性方面展现了创新性的突破。这些进展不仅为文本语义嵌入技术提供了新的研究视角,也为未来自然语言处理领域的发展奠定了坚实的基础。
尽管 LLM 能生成更精确的文本语义嵌入,但也面临计算资源消耗大、数据隐私与伦理挑战以及解释性不足等难题。尤为关键的是,LLM 高度依赖于提示的质量,然而为各种任务创建精确且全面的提示不仅繁琐且耗时,同时,将提示整合到文本嵌入中会增加输入长度,这对于大型数据集和模型而言,将带来额外的计算开销。随着技术的持续进步,未来应该会出现更高效的训练算法,这将显著加速 LLM 的训练过程,进而推动其在 NLP 领域的广泛应用。同时,文本嵌入与图像、音频等其他模态嵌入的融合将成为趋势,旨在实现多模态自然语言处理任务,拓宽模型的应用范围并提升其性能。此外,为应对日益增长的模型解释性需求,未来 LLM 将朝着更强可解释性方向发展,优化提示生成算法和质量评估,确保决策过程的合理性、准确性和伦理性。随着这些技术的不断成熟,LLM 语义嵌入生成技术将在智能客服、内容创作、教育等众多领域展现更为广阔的应用前景,开启自然语言处理的新篇章。
END
推荐阅读
持续推进“人工智能+”行动,百度智能云+DeepSeek为何成为国有企业首选?
百度智能云xDeepSeek,最具性价比的DeepSeek一体机合集来了!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-12
2025-03-12
2025-03-10
2025-03-10
2025-03-10
2025-03-10
2025-03-08
2025-03-08