我要投稿

REMED -- 一种高效嵌入微调的检索增强生成方法

发布日期：2024-03-30 08:22:57 浏览次数： 2414

作者：计算机视觉的小书童

微信搜一搜，关注“计算机视觉的小书童”

本工作发表在IJCNN 2024
作者：庞天琦、谭可慧、姚昱君、刘向阳、范晨悠、张晓凡
单位：华南师范大学，上海人工智能实验室，上海交通大学

Science Technology

摘要

本研究旨在解决大型语言模型（LLMs）在高风险领域如医疗保健中生成不可靠信息的挑战，并引入了适用于医学领域的检索增强生成（RAG）方法。为了进一步增强检索准确性，我们设计了一种专门针对LLMs中存在的虚构问题的医学文档检索框架——REMED。REMED框架包括数据集构建、高效的嵌入微调EM-FT模型、检索增强生成以及LLMs响应的人工评估。EM-FT模型通过高效的嵌入微调方法，可以对大型预训练模型中的医学句子表示进行端到端微调，从而提升医学检索的性能。我们采用对比学习作为损失函数，优化EM-FT模型的性能，使其能够准确捕捉查询和相关文档之间的相似性。通过在两个数据集上的验证，我们证明了我们的EM-FT方法相比直接使用嵌入模型进行检索，在MMD上提高了3.2% - 6.0%的召回率和精确度，在MPD上提高了14.4% - 42.6%。

研究背景

在大规模语言模型（LLMs）如GPT-4不断增强的同时，人们对其生成不可靠信息的倾向表达了担忧，这被称为“幻觉”问题[1]。在医疗保健和法律等关键领域，准确性和可靠性至关重要，即使是微小的错误也可能产生严重后果，因此需要进行极其谨慎的信息处理。

最近，检索增强生成（RAG）作为一种有效的方法出现，用于解决幻觉问题[2]。RAG将预训练的语言模型与检索系统相结合，利用外部数据库提升性能。在我们的研究中，我们利用自主收集的数据集，即医学药品数据集（MMD）和医学论文数据集（MPD），整合相关信息并改善RAG的性能。通过在生成过程中结合对可靠内容的事实核查，与知识库中的可信内容进行比对，我们显著提高了生成结果的可靠性。

Science Technology

研究方法

数据集

1.Medical Menu dataset(MMD)：MMD旨在成为评估医学信息检索系统的全面可靠基准。数据源自权威的"WHO Medicine"，覆盖了"National Pharmacopoeia"中的所有药物信息，共包含20万多条记录。

2.Medical Paper dataset (MPD)：通过从美国著名的国家生物技术信息中心（NCBI）中随机抽样1,000篇论文构建了一个样本医学文档数据集。

数据预处理

详细介绍了两个有监督数据集的构建流程：

上图展示了MMD（医疗药品数据集）的结构化细节。其目标是将原始的医疗药品数据集转化为结构化文本的过程。每个文本样本由药品名称、生产厂家、所属类别以及其他属性组成。标签信息则来源于真实世界的标注。

上图展示了MPD（医学文献数据集）的结构化细节。(1) 使用论文的标题或随机段落作为LLM的输入。(2) LLM根据论文的标题或段落生成相关查询。(3) 结构化文本。(4) 计算每个查询和段落的BM25分数。(5) 使用BM25分数相应地分配标签。

REMED框架

我们设计和搭建了REMED框架，整合了数据集构建、高效的嵌入微调（EM-FT）模型、检索增强生成以及对LLM回复的人工评估，如下图所示。

我们的方法使用有监督的数据集在检索阶段训练嵌入模型，并采用对比学习方法来提高模型性能，成本较低。在密集检索领域，像M3e[3]和E5[4]这样的嵌入模型发挥着关键作用。在这些模型的基础上，我们引入了一个称为Gate Linear Unit (GLU)模块的新模块。如上图所示，EM-FT包含了整个嵌入模型以及GLU模块。EM-FT模型使用一个有监督的数据集进行微调，其中嵌入模型被视为黑盒子，其参数被冻结，将训练过程完全集中在GLU模块上。这种方法确保了医学数据可以实时更新，同时防止私密数据的泄露。

损失函数

我们设计了一个对比损失作为监督来优化嵌入空间，使得与查询相关的文档比不相关的文档更接近，如公式1和公式2所示：

通过将对比学习纳入EM-FT模型的微调中，它在捕捉查询和文档之间的相关性方面变得更加有效。这使得查询嵌入更接近于正向文本嵌入，并与负向文本嵌入相距较远。

EM-FT模型

EM-FT模型架构集成了两个核心组件：嵌入骨干（Embedding Backbone）和可训练的EM头部（Trainable EM Head），旨在实现高效的文本相似性检索。如下图所示，我们紧凑的可训练EM头部设计包含三个主要组件：层归一化（LayerNorm）、两个线性层（LinearLayer）之间带有激活函数。受到最近LLM设计的进展启发，我们提供了两种激活函数选择：GELU和Swish。

人类评估

上图展示了在相同问题下，“奥利司他胶囊的适应症是什么？”。我们对M3e模型和我们提出的EM-FT模型在LLM生成性能方面进行的比较。我们还通过人类评估了LLM生成的答案。根据结果显示，M3e模型提供了不准确的检索结果，导致LLM生成了错误的答案。而我们的方法提供了准确的检索结果。因此，LLM也生成了正确的回答。

Science Technology

研究结论

我们针对两个自采集的数据集MMD和MPD分别测评在各种评估指标下的性能，重点关注前K=10个推荐结果。评估指标包括召回率（Recall）、精确率（Precision）、点击率（Hit Rate）和平均精确率（mAP）。

如表1所示，可以得到以下结论：

1）EM-FT（w/L2）方法通过在损失函数中加入L2正则化显著提高了模型性能，召回率提高了约6%。这验证了正则化有助于避免过拟合并增强泛化能力。

2）使用EM-FT相比于EM-FT(s)获得了更好的性能。EM-FT(s)中使用Swish激活函数可能导致过于复杂的嵌入向量，从而导致过拟合。而EM-FT使用GELU激活函数则得到了改进的向量表示，从而提高了检索质量。

3）我们的模型表现优于M3e-FPFT（全参量微调）。与EM-FT（W/L2）相比，M3e-FPFT的时间成本增加了10倍，同时召回率和精确率分别下降了17.2%和28.8%。这表明我们的模型在计算效率方面更高效。

如表2所示，可以得到以下结论：

1）EM-FT和EM-FT(s)相较于基准模型都带来了显著的改进。其中，EM-FT（Title）指用文章标题生成query，EM-FT（RP）指用随机段落生成query。两种方法在召回率、精确率和mAP方面分别大幅提升了12.2%-14.4%、30.5%-42.6%和34%-42.6%。

2）使用LLM辅助查询生成方法对查询生成是有益的。为了确认性能改进是否归因于查询生成方法，我们采用了两种不同的方法：Title和RP。我们观察到在这两种方法下，模型的性能都得到了改善，从而验证了我们方法的普适性。

综上所述，我们的研究表明，在医学文档检索方面，通过引入对比学习和使用EM-FT进行向量微调，可以显著提高模型性能，并且我们的模型在计算效率方面表现出优势。

Science Technology

总结

在这项研究中，我们提出了一种名为REMED的医学文档检索框架。该框架包括数据构建、嵌入模型微调、检索增强生成和人工评估等步骤。EM-FT是一种高效的嵌入模型微调方法，可以对大规模预训练模型中的医学句子表示进行端到端微调，以提高医学检索性能。此外，我们收集了两个有监督的数据集，即MMD和MPD，用于对EM-FT模型进行微调。

总之，我们的REMED医学文档检索框架确保了数据集的隐私和安全性。我们证明了通过改善检索模型的前K个结果的质量，可以提高LLM回答的准确性。然而，我们的工作还存在一些限制，例如二元标注系统（0和1）。在未来的工作中，将标注细化为0到4的范围可能是一个有前景的方向，可以带来更精确的结果。

引用：

[1] L. Huang, W. Yu, W. Ma, W. Zhong, Z. Feng, H. Wang, Q. Chen, W. Peng, X. Feng, B. Qin et al., “A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions,” arXiv preprint arXiv:2311.05232, 2023.

[2] P. Lewis, E. Perez, A. Piktus, F. Petroni, V. Karpukhin, N. Goyal,H. Kuttler, M. Lewis, W.-t. Yih, T. Rocktaschel et al., “Retrieval augmented generation for knowledge-intensive nlp tasks,” Advances in Neural Information Processing Systems, vol. 33, pp. 9459–9474, 2020.

[3] Y. Wang, Q. Sun, and S. He, “M3e: Moka massive mixed embedding model,” 2023.

[4] L. Wang, N. Yang, X. Huang, B. Jiao, L. Yang, D. Jiang, R. Majumder, and F. Wei, “Text embeddings by weakly-supervised contrastive pretraining,” arXiv preprint arXiv:2212.03533, 2022.