我要投稿

优化RAG效果四种文档分块策略解析

发布日期：2024-05-29 07:14:48 浏览次数： 3489

作者：口袋大数据

微信搜一搜，关注“口袋大数据”

检索增强生成（Retrieval-Augmented Generation, RAG）可能是现阶段大型语言模型在实际应用中落地最有效的方式。RAG技术通过结合检索和生成两种能力，为大模型LLM提供了外部知识源的支持，使其能够更准确、高效地生成符合上下文的答案，同时保持了模型的可扩展性、可控性和可解释性。

在RAG技术中，文档分块（Chunk）的策略对于提高检索和生成的效果至关重要。本文将探讨几种常见的分块策略，并介绍如何在实际应用中实现这些策略。

固定大小分块

固定大小分块是最常见的方法，通过设定块的大小和是否有重叠来决定分块。这种方法简单直接，不需要使用任何NLP库，因此计算成本低且易于使用。在实际实现中，可以使用特定的工具或库，如LangChain中的CharacterTextSplitter工具，将文本划分为包含固定数量token的块。

示例代码：


from langchain.text_splitter import CharacterTextSplitter
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(encoding="cl100k_base", chunk_size=100, chunk_overlap=0 )texts = text_splitter.split_text(state_of_the_union)

基于结构的分块

基于结构的分块方法利用文档的结构信息进行分块，例如HTML或Markdown格式的文档。这种方法可以充分利用文档中的结构信息，如标题、段落等，保持文本的逻辑和语义完整性。LangChain提供了MarkdownHeaderTextSplitter和HTMLHeaderTextSplitter工具，可以用于解析和转换Markdown或HTML文本。

示例代码：


from langchain.text_splitter import HTMLHeaderTextSplitter
html_string = """<!DOCTYPE html><html><body><div><h1>Foo</h1><p>Some intro text about Foo.</p><div><h2>Bar main section</h2><p>Some intro text about Bar.</p><h3>Bar subsection 1</h3><p>Some text about the first subtopic of Bar.</p><h3>Bar subsection 2</h3><p>Some text about the second subtopic of Bar.</p></div><div><h2>Baz</h2><p>Some text about Baz</p></div><br><p>Some concluding text about Foo</p></div></body></html>"""
headers_to_split_on = [("h1", "Header 1"),("h2", "Header 2"),("h3", "Header 3"),]
html_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on)html_header_splits = html_splitter.split_text(html_string)

基于语义的分块

基于语义的分块策略旨在确保每个分块包含尽可能多的语义独立信息。这可以通过标点符号、自然段落或者使用工具包如NLTK、Spacy等实现。此外，还可以使用Embedding-based方法，通过预训练的词嵌入模型（如Word2Vec或BERT）将文本转换为嵌入向量，并根据语义信息进行分块。

示例代码：


from langchain_experimental.text_splitter import SemanticChunkerfrom langchain.embeddings import OpenAIEmbeddings
text_splitter = SemanticChunker(OpenAIEmbeddings())docs = text_splitter.create_documents([state_of_the_union], breakpoint_threshold_type="percentile")
print(docs[0].page_content)

递归分块

递归分块使用一组分隔符，以分层和迭代的方式将输入文本划分为更小的块。这种方法可以根据文本的内容和结构动态调整分块的大小和形状，从而更好地适应不同类型的文本数据。LangChain的RecursiveCharacterTextSplitter可以用于实现递归分块。


from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=100,chunk_overlap=20,length_function=len,is_separator_regex=False,)texts = text_splitter.create_documents([state_of_the_union])print(texts[0])print(texts[1])