我要投稿

RAG文档分块新思路：LGMGC如何提升文档分块的语义连贯性？

发布日期：2025-01-24 06:37:58 浏览次数： 2797

作者：ChallengeHub

微信搜一搜，关注“ChallengeHub”

论文概述

在开放域问答（Open-Domain Question Answering, ODQA）任务中，文档分块（chunking）过程中存在的不足。特别是在基于检索增强生成（Retrieval-Augmented Generation, RAG）模型的管道中，文档被分割成独立的块，然后通过检索过程来识别与给定查询相关的块，这些相关块与查询一起被传递给语言模型（LLM）以生成期望的响应。

然而，现有研究往往更多关注于检索和生成组件的改进，而忽视了文档分块和分割的重要性。文档分块的粒度和语义在检索阶段的精确度中起着重要作用，而检索到的块中缺乏上下文信息或包含过多不相关信息可能会阻碍语言模型提取准确关键信息的能力，即使检索器的性能很好。

为了解决这些挑战，论文提出了一个新的框架——Logits-Guided Multi-Granular Chunker（LGMGC），该框架将长文档分割成不同粒度的上下文化、自包含的块。通过实验结果，论文证明了LGMGC不仅能够改善检索步骤，而且在集成到RAG管道中时，相较于现有的分块方法也能取得更好的性能。

相关工作

论文中提到了以下与文档分块（chunking）和检索增强生成（RAG）相关的研究工作：

Recursive Chunking ：这是一种基于层次分隔符将文本分割成单位的方法，它根据预定义的结构将文本分段。这种方法可能缺乏每个块内的足够上下文信息。
Small2Big ：这种方法使用小的文本块进行信息检索，并将其扩展成更大的块，为LLM合成器提供额外的上下文。
Semantic Chunking ：基于句子或段落之间显著的嵌入距离来确定断裂点，确保生成的块保持有意义和连贯。
使用大型语言模型（LLMs）提取文本段：近期的研究利用LLMs提取既上下文连贯又高效的文本段进行检索。例如利用LLM将文档转换成“命题”，这些命题封装了不同的事实，超越了传统的段落或句子级别的分块技术。
LumberChunker：自动识别最佳分割点，通过迭代地将段落输入到LLM中。
in-context retrieval ：这是一种新的RAG系统的上下文检索方法，利用LLM中编码的文档隐藏状态来解码相关段落，无需文档分块。

这些研究展示了基于LLM的分块策略的优越性能，并强调了进一步探索基于LLM的段落分割的潜力。 然而，将大规模LLMs集成到RAG管道中会增加成本和处理时间，尤其是那些使用专有模型如GPT-4或Gemini-1.5的方法，这在企业内部也引发了IT安全问题。与上述方法相比，本文提出的基于LLM的方法只需要单个前向传递的logits信息，从而使分块过程在计算上更高效。

核心算法

论文提出了一个名为Logits-Guided Multi-Granular Chunker（LGMGC）的新框架来解决开放域问答（ODQA）中文档分块的问题。LGMGC框架包含两个主要组件：Logits-Guided Chunker和Multi-Granular Chunker。下面是这两个组件如何协同工作来提高文档分块性能的详细说明：

1. Logits-Guided Chunker

原理：利用大型语言模型（LLMs）对上下文的强理解能力，通过计算给定提示（prompt）下文本序列后出现[EOS]（End of Sequence）标记的概率，来确定文本中完整语义单元的边界。
实现：将输入文档转换为固定大小的块，计算每个句子后[EOS]标记的概率，并选择概率最高的点作为断裂点。这样，断裂点之前的文本被视为一个独立的块，剩余内容与下一个固定大小的块连接，形成后续迭代的输入。
优势：相较于传统方法，Logits-Guided Chunker能够更有效地捕捉上下文连贯性，生成独立、集中的语义块。

2. Multi-Granular Chunker

原理：基于Small2Big的思想，即在检索过程中使用较小的文本块，并在检索到的文本块所属的较大文本块提供给大型语言模型。
实现：首先，通过递归分块将文档分割成较大的父块（parent chunks），每个父块再递归细分为不同粒度（如θ/2和θ/4词）的子块（child chunks）。在推理过程中，通过子块（包括父块本身）的最大相似度分数来确定父块的相似度分数，并将得分最高的k个父块传递给LLM合成器以生成响应。
优势：Multi-Granular Chunker能够根据不同类型查询的需求，进一步细分父块，提高检索和合成的粒度灵活性。

3. Logits-Guided Multi-Granular Chunker (LGMGC)

整合：LGMGC结合了Logits-Guided Chunker和Multi-Granular Chunker的优势，首先利用Logits-Guided Chunker生成的θ大小的父块，然后进一步细分这些父块为不同粒度的子块。
效果：实验结果表明，LGMGC在文档检索和下游问答任务中均优于主流分块方法，显示出其在检索和问答任务中的潜力。

通过这种结合语义连贯性和不同粒度需求的方法，LGMGC能够有效地改善文档分块过程，提高RAG模型在开放域问答任务中的性能。

论文实验

1. 检索性能评估

数据集：使用GutenQA数据集，这是一个具有“针堆中找针”类型问题-答案对的基准数据集，来源于叙事书籍。
评估指标：使用DCG@k和Recall@k作为评估指标。
结果处理：由于观察到原始文本中没有直接出现的证据，可能是由于LLM合成生成的基准数据，导致匹配率降低，因此对数据进行了重新标记。对于每个证据，计算其与每个块的ROUGE分数，并选择分数最高的块作为与查询相关的块。

2. 下游问答（QA）任务性能评估

数据集：使用LongBench中的三个单文档QA数据集：NarrativeQA、QasperQA和MultifieldQA。这些任务旨在进行信息提取，而不需要高级推理。
评估指标：使用F1分数作为评估指标，定义如下：

其中，BOW(A)表示预测（pred）或真实答案（gt）的词袋模型。

3. 基线比较

基线方法：与几种已建立的方法进行比较，包括Recursive Chunker和Semantic Chunker。此外，还包括Paragraph-Level Chunker和LumberChunker作为检索任务的进一步基线比较。还包括Multi-Granular Chunker（MG Chunker）和Logits-Guided Chunker（LG Chunker）作为消融研究的基线。
模型和实现细节：使用8位量化的Llama3-8b进行Logits-Guided Chunker和LGMGC的实现。所有策略都在不同的块大小θ（200, 300, 500词）下进行评估，以评估它们对这一超参数的敏感性。

4. 结果

检索任务：Logits-Guided Chunker在不同块大小下一致性地优于Recursive Chunker、Semantic Chunker和Paragraph-Level Chunker，表明其在捕获上下文连贯性和产生独立、集中的语义块方面具有优越能力。LGMGC在考虑文本块的连贯性和不同问题的粒度时，取得了最佳结果。
下游QA任务：LGMGC在所有三个数据集上使用最优块大小时展现出最高的性能，表明其在下游问答任务中相较于当前基线方法具有优越性。