AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


G-RAG重排: 基于图神经网络的多文档重排方法来提升RAG性能
发布日期:2024-10-14 12:28:14 浏览次数: 1588 来源:老贾探AI


文章提出了一种名为G-RAG的方法,通过结合文档图和抽象意义表示(AMR)图来优化检索增强生成(RAG)系统中大型语言模型的回答质量,特别是在处理信息不全或上下文关联度较低的文档时。该方法旨在改善现有重排序技术对文档间连接利用不足的问题,从而减少过拟合并降低计算资源消耗,从而提高RAG系统的性能。

研究主要方法

1.文档图的构建

  • 对每个问题-文档对,将问题和文档文本拼接后使用 AMR BART 解析生成AMR图。
  • 基于这些 AMR图 构建无向文档图,其中节点表示文档表示文档之间的共同概念
  • 通过消息传递机制更新边特征。

2.节点特征的生成

  • 使用预训练语言模型对所有检索到的文档进行编码,得到初始节点表示。
  • 通过识别从“question”节点到其他节点的最短单源路径(SSSP),提取路径上的节点概念,构建AMR信息序列,并将其与文档文本拼接后再次编码,得到最终的节点特征。

3.边特征的生成

  • 计算文档之间的共同节点数共同边数,作为边的特征,并进行归一化处理。

4.图神经网络的表示更新

  • 基于初始节点和边特征,使用图神经网络进行多轮迭代更新,通过聚合邻居节点的特征来更新每个节点的表示。

5.重排序得分和训练损失

  • 使用余弦相似度计算每个文档的重排序得分,并使用交叉熵损失函数成对排名损失函数进行训练。成对排名损失函数能够更好地处理排名分数的平局情况

涉及公式

  • 文档嵌入公式: ,其中, 表示与文档 相关的AMR信息。
  • 节点表示更新公式: ,其中,是特征计算函数, 是数据聚合操作, 是节点表示更新函数。
  • 成对排名损失函数: ,其中, 表示文档的排序关系。

实验相关

1.数据集

  • 使用自然问题(NQ)TriviaQA数据集进行实验。NQ数据集包含来自Google搜索查询的文本块,而TQA数据集包含来自 trivia和 quiz-league网站的问答对。

2.模型细节

  • 使用DPR进行文档检索,生成100个文档,并使用AMRBART解析每个问题-文档对生成AMR图。
  • 采用2层图卷积网络(GCN)作为GNN模型,隐藏维度从{8, 64, 128}中选择,dropout率从{0.1, 0.2, 0.4}中选择,学习率从{5e-5, 1e-4, 5e-4}中选择。
  • AdamW优化器,学习率5e-5至1e-4,批量大小5,总训练步数50k,每10k步评估一次。

3.评估指标

  • 使用平均倒数排名(MRR)、平均命中率@10(MHits@10)及其变体(MTRR和TMHits@10)评估重排序性能。

结果与分析

1.重排序性能

  • G-RAG方法在NQ和TQA数据集上的MRR和MHits@10指标上均优于现有方法。
  • 在NQ数据集上,G-RAG的MRR达到了27.3,而BART的MRR为25.7;在TQA数据集上,G-RAG的MHits@10达到了42.9,而BART的MHits@10为38.5。

2.PaLM 2评估

  • 使用PaLM 2作为重排序器时,发现其在重排序任务中的表现不如G-RAG。这可能是由于PaLM 2生成的相关性得分中存在大量平局,导致排名效果不佳。
  • 使用提出的 MTRR 和 TMHits@10 指标进行评估,结果显示G-RAG方法显著提高了重排性能。

3.不同嵌入模型的比较

  • 在相同设置下,Ember模型表现最佳,尤其是在引入超参数调优后,其MRR达到了28.9。其次是GTE和BGE,而BART-GST和BERT表现略低。

总结

论文提出的G-RAG方法通过利用文档之间的连接关系和AMR信息,显著提高了RAG系统在ODQA任务中的性能。该方法不仅提高了文档的识别精度,还提出了新的评估指标来公平地评估各种排名场景。此外,研究还表明,即使在LLM时代,重排器模型设计在RAG中仍然具有重要意义。未来的研究方向包括设计更复杂的模型以更好地处理AMR信息,并将这些信息整合到节点和边特征中,以及微调预训练LLM以提高RAG系统的性能

论文读后感

优点与创新

  1. 提出了一种基于文档图的重新排序器G-RAG该方法利用文档之间的连接信息来提高RAG的性能,特别是在文档与问题上下文连接较弱的 情况下。
  2. 引入了新的评估指标为了更公平地评估各种排名场景,包括得分相同的排名情况,提出了Mean Tied Reciprocal Ranking(MTRR)和Tied Mean Hits@10(TMHit@10)两个新指标。
  3. 评估了PaLM 2作为重新排序器的性能:发现即使使用最先进的预训练大型语言模型,重新排序器模型设计在RAG中的重要性也不容忽视。
  4. 高效的计算资源使用 :G-RAG在保持较小计算足迹的同时,优于现有的最先进方法。
  5. 利用AMR图的关键信息:通过识别有助于重新排序器识别更相关文档的关键因素,而不是将所有AMR相关的标记都添加为节点级特征,从而提高了性能并避免了过拟合。

不足与反思

  1. 未来研究方向:尽管G-RAG在大多数情况下表现出色,但仍有进一步改进的空间。例如,设计更复杂的模型 以更好地处理AMR信息,并将其整合到节点和边特征中,可能会带来进一步的改进。
  2. 微调大型语言模型:尽管预训练的大型语言模型本身在重新排序任务中表现不佳,但对其进行微调可能会显著提 高RAG系统的性能。
  3. 解决排名得分的平局问题:目前正在研究更先进的技术,以更有效地解决大型语言模型生成的排名得分中的平局问题。

关键QA

  • 问题1:G-RAG模型在处理文档连接关系方面有哪些创新之处?
  1. 文档图的构建:G-RAG利用AMR图的信息为检索到的文档构建文档图。每个节点代表一个文档,每条边表示两个文档之间有共同的概念。通过消息传递机制更新边特征,从而捕捉文档之间的连接关系。

  2. 路径识别和节点概念提取:在生成节点特征时,G-RAG不仅使用文档文本,还结合了AMR信息。具体步骤包括路径识别(确定从“问题”节点出发的最短单源路径)和节点概念提取(从这些路径中提取节点概念),从而更全面地理解文档的语义信息。

  3. 边特征的利用:除了节点特征外,G-RAG还充分利用AMR图中无向边的特征,如共同节点数和共同边数。这些特征有助于捕捉文档之间的相似性和关联性。

  • 问题2:G-RAG模型在处理冗余AMR信息方面采取了哪些措施?
  1. 路径识别和节点概念提取:通过路径识别和节点概念提取,G-RAG仅选择与文档最相关的AMR信息。具体来说,G-RAG从AMR图中提取最短单源路径上的节点概念,而不是将所有AMR信息都纳入节点特征中。

  2. 特征归一化:在计算边特征时,G-RAG对特征进行了归一化处理,以避免在图卷积操作中输出节点特征的规模过大。这种归一化处理有助于减少冗余信息的干扰。

  3. 节点表示更新:在图神经网络的节点表示更新中,G-RAG通过聚合邻居节点的特征来更新当前节点的表示,从而确保更新的特征中不包含冗余的AMR信息。

  • 问题3:G-RAG模型在评估重排器性能方面提出了哪些新的度量指标?
  1. Mean Tied Reciprocal Ranking (MTRR):为了更公平地评估重排器的性能,特别是当存在排名平局时,G-RAG提出了MTRR指标。MTRR通过平均乐观排名和悲观排名来计算MRR,从而减少平局对评估结果的影响。

  2. Tied Mean Hits@10 (TMHit@10):同样,针对排名平局的情况,G-RAG提出了TMHit@10指标。TMHit@10通过将命中数除以平局数来计算Top-10排名的命中率,从而更准确地评估重排器在平局情况下的性能。这些新的度量指标使得G-RAG能够更全面地评估重排器在各种排名场景下的表现,包括存在平局的情况。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询