我要投稿

G-RAG重排: 基于图神经网络的多文档重排方法来提升RAG性能

发布日期：2024-10-14 12:28:14 浏览次数： 2421

作者：老贾探AI

微信搜一搜，关注“老贾探AI”

文章提出了一种名为G-RAG的方法，通过结合文档图和抽象意义表示（AMR）图来优化检索增强生成（RAG）系统中大型语言模型的回答质量，特别是在处理信息不全或上下文关联度较低的文档时。该方法旨在改善现有重排序技术对文档间连接利用不足的问题，从而减少过拟合并降低计算资源消耗，从而提高RAG系统的性能。

研究主要方法

1.文档图的构建

对每个问题-文档对，将问题和文档文本拼接后使用 AMR BART 解析生成AMR图。
基于这些 AMR图构建无向文档图，其中节点表示文档，边表示文档之间的共同概念。
通过消息传递机制更新边特征。

2.节点特征的生成

使用预训练语言模型对所有检索到的文档进行编码，得到初始节点表示。
通过识别从“question”节点到其他节点的最短单源路径（SSSP），提取路径上的节点概念，构建AMR信息序列，并将其与文档文本拼接后再次编码，得到最终的节点特征。

3.边特征的生成

计算文档之间的共同节点数和共同边数，作为边的特征，并进行归一化处理。

4.图神经网络的表示更新

基于初始节点和边特征，使用图神经网络进行多轮迭代更新，通过聚合邻居节点的特征来更新每个节点的表示。

5.重排序得分和训练损失

使用余弦相似度计算每个文档的重排序得分，并使用交叉熵损失函数和成对排名损失函数进行训练。成对排名损失函数能够更好地处理排名分数的平局情况。

涉及公式

文档嵌入公式: ，其中，表示与文档相关的AMR信息。
节点表示更新公式: ，其中，是特征计算函数，是数据聚合操作，是节点表示更新函数。
成对排名损失函数: ，其中，表示文档的排序关系。

实验相关

1.数据集

使用自然问题（NQ）和TriviaQA数据集进行实验。NQ数据集包含来自Google搜索查询的文本块，而TQA数据集包含来自 trivia和 quiz-league网站的问答对。

2.模型细节

使用DPR进行文档检索，生成100个文档，并使用AMRBART解析每个问题-文档对生成AMR图。
采用2层图卷积网络（GCN）作为GNN模型，隐藏维度从{8, 64, 128}中选择，dropout率从{0.1, 0.2, 0.4}中选择，学习率从{5e-5, 1e-4, 5e-4}中选择。
AdamW优化器，学习率5e-5至1e-4，批量大小5，总训练步数50k，每10k步评估一次。

3.评估指标

使用平均倒数排名（MRR）、平均命中率@10（MHits@10）及其变体（MTRR和TMHits@10）评估重排序性能。

结果与分析

1.重排序性能

G-RAG方法在NQ和TQA数据集上的MRR和MHits@10指标上均优于现有方法。
在NQ数据集上，G-RAG的MRR达到了27.3，而BART的MRR为25.7；在TQA数据集上，G-RAG的MHits@10达到了42.9，而BART的MHits@10为38.5。

2.PaLM 2评估

使用PaLM 2作为重排序器时，发现其在重排序任务中的表现不如G-RAG。这可能是由于PaLM 2生成的相关性得分中存在大量平局，导致排名效果不佳。
使用提出的 MTRR 和 TMHits@10 指标进行评估，结果显示G-RAG方法显著提高了重排性能。

3.不同嵌入模型的比较

在相同设置下，Ember模型表现最佳，尤其是在引入超参数调优后，其MRR达到了28.9。其次是GTE和BGE，而BART-GST和BERT表现略低。

总结

论文提出的G-RAG方法通过利用文档之间的连接关系和AMR信息，显著提高了RAG系统在ODQA任务中的性能。该方法不仅提高了文档的识别精度，还提出了新的评估指标来公平地评估各种排名场景。此外，研究还表明，即使在LLM时代，重排器模型设计在RAG中仍然具有重要意义。未来的研究方向包括设计更复杂的模型以更好地处理AMR信息，并将这些信息整合到节点和边特征中，以及微调预训练LLM以提高RAG系统的性能。

论文读后感

优点与创新

提出了一种基于文档图的重新排序器G-RAG：该方法利用文档之间的连接信息来提高RAG的性能，特别是在文档与问题上下文连接较弱的情况下。
引入了新的评估指标：为了更公平地评估各种排名场景，包括得分相同的排名情况，提出了Mean Tied Reciprocal Ranking（MTRR）和Tied Mean Hits@10（TMHit@10）两个新指标。
评估了PaLM 2作为重新排序器的性能：发现即使使用最先进的预训练大型语言模型，重新排序器模型设计在RAG中的重要性也不容忽视。
高效的计算资源使用：G-RAG在保持较小计算足迹的同时，优于现有的最先进方法。
利用AMR图的关键信息：通过识别有助于重新排序器识别更相关文档的关键因素，而不是将所有AMR相关的标记都添加为节点级特征，从而提高了性能并避免了过拟合。

不足与反思

未来研究方向：尽管G-RAG在大多数情况下表现出色，但仍有进一步改进的空间。例如，设计更复杂的模型以更好地处理AMR信息，并将其整合到节点和边特征中，可能会带来进一步的改进。
微调大型语言模型：尽管预训练的大型语言模型本身在重新排序任务中表现不佳，但对其进行微调可能会显著提高RAG系统的性能。
解决排名得分的平局问题：目前正在研究更先进的技术，以更有效地解决大型语言模型生成的排名得分中的平局问题。

关键QA

问题1：G-RAG模型在处理文档连接关系方面有哪些创新之处？

文档图的构建：G-RAG利用AMR图的信息为检索到的文档构建文档图。每个节点代表一个文档，每条边表示两个文档之间有共同的概念。通过消息传递机制更新边特征，从而捕捉文档之间的连接关系。
路径识别和节点概念提取：在生成节点特征时，G-RAG不仅使用文档文本，还结合了AMR信息。具体步骤包括路径识别（确定从“问题”节点出发的最短单源路径）和节点概念提取（从这些路径中提取节点概念），从而更全面地理解文档的语义信息。
边特征的利用：除了节点特征外，G-RAG还充分利用AMR图中无向边的特征，如共同节点数和共同边数。这些特征有助于捕捉文档之间的相似性和关联性。

问题2：G-RAG模型在处理冗余AMR信息方面采取了哪些措施？

路径识别和节点概念提取：通过路径识别和节点概念提取，G-RAG仅选择与文档最相关的AMR信息。具体来说，G-RAG从AMR图中提取最短单源路径上的节点概念，而不是将所有AMR信息都纳入节点特征中。
特征归一化：在计算边特征时，G-RAG对特征进行了归一化处理，以避免在图卷积操作中输出节点特征的规模过大。这种归一化处理有助于减少冗余信息的干扰。
节点表示更新：在图神经网络的节点表示更新中，G-RAG通过聚合邻居节点的特征来更新当前节点的表示，从而确保更新的特征中不包含冗余的AMR信息。

问题3：G-RAG模型在评估重排器性能方面提出了哪些新的度量指标？

Mean Tied Reciprocal Ranking (MTRR）：为了更公平地评估重排器的性能，特别是当存在排名平局时，G-RAG提出了MTRR指标。MTRR通过平均乐观排名和悲观排名来计算MRR，从而减少平局对评估结果的影响。
Tied Mean Hits@10 (TMHit@10）：同样，针对排名平局的情况，G-RAG提出了TMHit@10指标。TMHit@10通过将命中数除以平局数来计算Top-10排名的命中率，从而更准确地评估重排器在平局情况下的性能。这些新的度量指标使得G-RAG能够更全面地评估重排器在各种排名场景下的表现，包括存在平局的情况。