我要投稿

生成式AI的检索增强生成（RAG）分块策略优化

发布日期：2024-04-19 11:25:28 浏览次数： 2777

作者：机器AI学习数据AI挖掘

微信搜一搜，关注“机器AI学习数据AI挖掘”

处理外部文档时，第一步通常涉及将它们分解成更小的片段以提取详细特征，然后嵌入这些特征以传达其语义。然而，对过大或过小的文本段进行嵌入可能会导致不理想的结果。因此，确定语料库中文档的最佳分段大小至关重要，以确保检索结果的准确性和相关性。

选择合适的分段策略需要

考虑几个关键因素，包括被索引内容的性质、嵌入模型、其最佳块大小、用户查询的预期长度和

复杂性，以及检索结果在特定应用中的使用方式。这篇短文介绍了关键的分块策略，包括基于字符的固定方法、平衡固定大小和自然语言结构的递归方法，以及考虑语义主题变化的高级技术。

固定大小（按字符）重叠滑动窗口。

这种方法涉及根据字符计数将文本分成固定大小的块。实现简单，并且包含重叠的部分，目的是防止切割句子或语意。然而，限制包括对上下文大小控制不精确，切割单词或句子的风险，以及缺乏语义考虑。适合用于探索性分析，但不推荐用于需要深入语义理解的任务。

使用LangChain的示例：

text = "..." # your textfrom langchain.text_splitter import CharacterTextSplittertext_splitter = CharacterTextSplitter(    chunk_size = 256,    chunk_overlap  = 20)docs = text_splitter.create_documents([text])

递归结构感知分割。

这是一种结合了固定大小滑动窗口和结构感知分割的混合方法。它试图在固定的块大小与语言边界之间取得平衡，提供精确的上下文控制。实现复杂度较高，且存在块大小可变的风险。对于需要粒度和语义完整性的任务有效，但不推荐用于快速任务或结构划分不清晰的场景。

使用LangChain的示例：

text = "..." # your textfrom langchain.text_splitter import RecursiveCharacterTextSplittertext_splitter = RecursiveCharacterTextSplitter(    chunk_size = 256,    chunk_overlap  = 20,    separators = ["\n\n", "\n"])
docs = text_splitter.create_documents([text])

结构感知分割（按句子、段落）。

这种方法考虑了文本的自然结构，根据句子、段落、章节或篇章进行划分。尊重语言边界保持了语义完整性，但随着结构复杂性的变化也带来了挑战。对于需要上下文和语义的任务有效，但不适合缺乏明确结构划分的文本。

示例：

text = "..." # your textdocs = text.split(".")

内容感知分割（Markdown、LaTeX、HTML）。

这种方法专注于内容类型和结构，特别是在像Markdown、LaTeX或HTML这样的结构化文档中。它确保块内不混合不同的内容类型，保持了完整性。挑战包括理解特定的语法以及不适合非结构化文档。对于结构化文档很有用，但不建议用于非结构化内容。

使用LangChain针对Markdown文本的示例：

from langchain.text_splitter import MarkdownTextSplittermarkdown_text = "..."
markdown_splitter = MarkdownTextSplitter(chunk_size=100, chunk_overlap=0)docs = markdown_splitter.create_documents([markdown_text])

使用LangChain针对LaTeX文本的示例：

from langchain.text_splitter import LatexTextSplitterlatex_text = "..."latex_splitter = LatexTextSplitter(chunk_size=100, chunk_overlap=0)docs = latex_splitter.create_documents([latex_text])

NLP分块：追踪主题变化。

这是一种基于语义理解的复杂方法，通过检测主题的显著转移来将文本分成块。确保了语义的一致性，但需要高级的NLP技术。对于需要语义上下文和主题连续性的任务有效，但对于高度主题重叠或简单的分块任务不适合。

使用LangChain中的NLTK工具包的示例：

text = "..." # your textfrom langchain.text_splitter import NLTKTextSplittertext_splitter = NLTKTextSplitter()docs = text_splitter.split_text(text)

总结而言，有效处理外部文档需要一个深思熟虑的分段策略，考虑各种因素，如被索引内容的性质、嵌入模型、用户查询期望和应用特定的需求。所介绍的分块策略提供了一系列的途径，每种都有其优势和局限性。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

2025-08-21

DeepSeek V3.1 Base / Instruct 发布

2025-08-20

阿里Qoder vs Trae vs Cursor：谁才是2025年程序猿的效率之王？

2025-09-07

DeepSeekV3.1 提到的 UE8M0 FP8 Scale 是什么？下一代国产芯片设计？

2025-08-21

DeepSeek V3.1 测评

2025-08-19

有点东西！Qwen开源会写中文的生图模型Qwen-Image

2025-08-05

新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

2025-09-16

DeepSeek-V3.1-Base来了！MoE架构+128K上下文，性能再进化

2025-08-20

WAIC 2025 观察：大模型进入“效率与场景”决胜期

2025-07-29

AI大家说 | 下一代AI创业的机会在哪里？定价趋势是什么？

2025-09-08

大家都在问

2025，为何“体感上没有AI爆款应用”？

2025-10-25

阿里夸克AI眼镜开售：叠加补贴后3699元，它能打破AI眼镜的魔咒吗？

2025-10-24

Dify Agent 核心解密：三模双驱，如何选对策略让你的AI应用“开挂”？

2025-10-23

冷启动策略：没有数据，我的第一个AI功能如何从0到1？

2025-10-23

AI大扁平化时代：高层管理者还会存在吗?

2025-10-22

AI浏览器来袭，openAI争夺系统默认入口的关键一跳？

2025-10-22

几乎都在挂羊头卖狗肉，AI Agent的泡沫现在到底有多大？

2025-10-20

AIOps探索：做AIOps智能体，是直接调用公共大模型还是要部署私有大模型？

2025-10-20

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB