AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


REMED -- 一种高效嵌入微调的检索增强生成方法
发布日期:2024-03-30 08:22:57 浏览次数: 1813


本工作发表在IJCNN 2024
作者:庞天琦、谭可慧、姚昱君、刘向阳、范晨悠、张晓凡

单位:华南师范大学,上海人工智能实验室,上海交通大学

Science Technology



摘要



    本研究旨在解决大型语言模型(LLMs)在高风险领域如医疗保健中生成不可靠信息的挑战,并引入了适用于医学领域的检索增强生成(RAG)方法。为了进一步增强检索准确性,我们设计了一种专门针对LLMs中存在的虚构问题的医学文档检索框架——REMED。REMED框架包括数据集构建、高效的嵌入微调EM-FT模型、检索增强生成以及LLMs响应的人工评估。EM-FT模型通过高效的嵌入微调方法,可以对大型预训练模型中的医学句子表示进行端到端微调,从而提升医学检索的性能。我们采用对比学习作为损失函数,优化EM-FT模型的性能,使其能够准确捕捉查询和相关文档之间的相似性。通过在两个数据集上的验证,我们证明了我们的EM-FT方法相比直接使用嵌入模型进行检索,在MMD上提高了3.2% - 6.0%的召回率和精确度,在MPD上提高了14.4% - 42.6%。


研究背景



    在大规模语言模型(LLMs)如GPT-4不断增强的同时,人们对其生成不可靠信息的倾向表达了担忧,这被称为“幻觉”问题[1]。在医疗保健和法律等关键领域,准确性和可靠性至关重要,即使是微小的错误也可能产生严重后果,因此需要进行极其谨慎的信息处理。

     最近,检索增强生成(RAG)作为一种有效的方法出现,用于解决幻觉问题[2]。RAG将预训练的语言模型与检索系统相结合,利用外部数据库提升性能。在我们的研究中,我们利用自主收集的数据集,即医学药品数据集(MMD)和医学论文数据集(MPD),整合相关信息并改善RAG的性能。通过在生成过程中结合对可靠内容的事实核查,与知识库中的可信内容进行比对,我们显著提高了生成结果的可靠性。


Science Technology



研究方法



01

数据集

1.Medical Menu dataset(MMD):MMD旨在成为评估医学信息检索系统的全面可靠基准。数据源自权威的"WHO Medicine",覆盖了"National Pharmacopoeia"中的所有药物信息,共包含20万多条记录。

2.Medical Paper dataset (MPD):通过从美国著名的国家生物技术信息中心(NCBI)中随机抽样1,000篇论文构建了一个样本医学文档数据集。

02

数据预处理

详细介绍了两个有监督数据集的构建流程:


    上图展示了MMD(医疗药品数据集)的结构化细节。其目标是将原始的医疗药品数据集转化为结构化文本的过程。每个文本样本由药品名称、生产厂家、所属类别以及其他属性组成。标签信息则来源于真实世界的标注。



    上图展示了MPD(医学文献数据集)的结构化细节。(1) 使用论文的标题或随机段落作为LLM的输入。(2) LLM根据论文的标题或段落生成相关查询。(3) 结构化文本。(4) 计算每个查询和段落的BM25分数。(5) 使用BM25分数相应地分配标签。


03

REMED框架

    我们设计和搭建了REMED框架,整合了数据集构建、高效的嵌入微调(EM-FT)模型、检索增强生成以及对LLM回复的人工评估,如下图所示。



    我们的方法使用有监督的数据集在检索阶段训练嵌入模型,并采用对比学习方法来提高模型性能,成本较低。在密集检索领域,像M3e[3]和E5[4]这样的嵌入模型发挥着关键作用。在这些模型的基础上,我们引入了一个称为Gate Linear Unit (GLU)模块的新模块。如上图所示,EM-FT包含了整个嵌入模型以及GLU模块。EM-FT模型使用一个有监督的数据集进行微调,其中嵌入模型被视为黑盒子,其参数被冻结,将训练过程完全集中在GLU模块上。这种方法确保了医学数据可以实时更新,同时防止私密数据的泄露。


04

损失函数

    我们设计了一个对比损失作为监督来优化嵌入空间,使得与查询相关的文档比不相关的文档更接近,如公式1和公式2所示:



    通过将对比学习纳入EM-FT模型的微调中,它在捕捉查询和文档之间的相关性方面变得更加有效。这使得查询嵌入更接近于正向文本嵌入,并与负向文本嵌入相距较远。


05

EM-FT模型



    EM-FT模型架构集成了两个核心组件:嵌入骨干(Embedding Backbone)和可训练的EM头部(Trainable EM Head),旨在实现高效的文本相似性检索。如下图所示,我们紧凑的可训练EM头部设计包含三个主要组件:层归一化(LayerNorm)、两个线性层(LinearLayer)之间带有激活函数。受到最近LLM设计的进展启发,我们提供了两种激活函数选择:GELU和Swish。

06

人类评估




    上图展示了在相同问题下,“奥利司他胶囊的适应症是什么?”。我们对M3e模型和我们提出的EM-FT模型在LLM生成性能方面进行的比较。我们还通过人类评估了LLM生成的答案。根据结果显示,M3e模型提供了不准确的检索结果,导致LLM生成了错误的答案。而我们的方法提供了准确的检索结果。因此,LLM也生成了正确的回答。


Science Technology



研究结论



    我们针对两个自采集的数据集MMD和MPD分别测评在各种评估指标下的性能,重点关注前K=10个推荐结果。评估指标包括召回率(Recall)、精确率(Precision)、点击率(Hit Rate)和平均精确率(mAP)。



如表1所示,可以得到以下结论:

1)EM-FT(w/L2)方法通过在损失函数中加入L2正则化显著提高了模型性能,召回率提高了约6%。这验证了正则化有助于避免过拟合并增强泛化能力。

2)使用EM-FT相比于EM-FT(s)获得了更好的性能。EM-FT(s)中使用Swish激活函数可能导致过于复杂的嵌入向量,从而导致过拟合。而EM-FT使用GELU激活函数则得到了改进的向量表示,从而提高了检索质量。

3)我们的模型表现优于M3e-FPFT(全参量微调)。与EM-FT(W/L2)相比,M3e-FPFT的时间成本增加了10倍,同时召回率和精确率分别下降了17.2%和28.8%。这表明我们的模型在计算效率方面更高效。



如表2所示,可以得到以下结论:

1)EM-FT和EM-FT(s)相较于基准模型都带来了显著的改进。其中,EM-FT(Title)指用文章标题生成query,EM-FT(RP)指用随机段落生成query。两种方法在召回率、精确率和mAP方面分别大幅提升了12.2%-14.4%、30.5%-42.6%和34%-42.6%。

2)使用LLM辅助查询生成方法对查询生成是有益的。为了确认性能改进是否归因于查询生成方法,我们采用了两种不同的方法:Title和RP。我们观察到在这两种方法下,模型的性能都得到了改善,从而验证了我们方法的普适性。


    综上所述,我们的研究表明,在医学文档检索方面,通过引入对比学习和使用EM-FT进行向量微调,可以显著提高模型性能,并且我们的模型在计算效率方面表现出优势。

Science Technology



总结



    在这项研究中,我们提出了一种名为REMED的医学文档检索框架。该框架包括数据构建、嵌入模型微调、检索增强生成和人工评估等步骤。EM-FT是一种高效的嵌入模型微调方法,可以对大规模预训练模型中的医学句子表示进行端到端微调,以提高医学检索性能。此外,我们收集了两个有监督的数据集,即MMD和MPD,用于对EM-FT模型进行微调。

    总之,我们的REMED医学文档检索框架确保了数据集的隐私和安全性。我们证明了通过改善检索模型的前K个结果的质量,可以提高LLM回答的准确性。然而,我们的工作还存在一些限制,例如二元标注系统(0和1)。在未来的工作中,将标注细化为0到4的范围可能是一个有前景的方向,可以带来更精确的结果。




引用:

[1] L. Huang, W. Yu, W. Ma, W. Zhong, Z. Feng, H. Wang, Q. Chen, W. Peng, X. Feng, B. Qin et al., “A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions,” arXiv preprint arXiv:2311.05232, 2023.

[2] P. Lewis, E. Perez, A. Piktus, F. Petroni, V. Karpukhin, N. Goyal,H. Kuttler, M. Lewis, W.-t. Yih, T. Rocktaschel et al., “Retrieval augmented generation for knowledge-intensive nlp tasks,” Advances in Neural Information Processing Systems, vol. 33, pp. 9459–9474, 2020.

[3] Y. Wang, Q. Sun, and S. He, “M3e: Moka massive mixed embedding model,” 2023.

[4] L. Wang, N. Yang, X. Huang, B. Jiao, L. Yang, D. Jiang, R. Majumder, and F. Wei, “Text embeddings by weakly-supervised contrastive pretraining,” arXiv preprint arXiv:2212.03533, 2022.




53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询