我要投稿

文本分块哪家强？LumberChunker、语义分块、段落级、循环分块、HyDE、命题级

发布日期：2024-06-28 05:38:23 浏览次数： 2535 作者：PaperAgent

检索增强生成（RAG）系统通过将模型生成与上下文相关文档相结合来提高信息的准确性，文本内容如何分割成“块（chunk）”对检索质量有显著影响。

用于问答实验的RAG Pipeline，一些tricks，混合检索：BM25-Top3、密集检索-Top15，BM25的Top1排在前面，Top2-3排在最后；大模型重排序：如果上下文包含六个或更多块，从中间点开始反转块的顺序。

LumberChunker方法利用LLM动态地将文档分割成语义独立的块。这种方法基于一个前提：当内容块的大小可以变化时，检索效率会提高，因为这样可以更好地捕捉内容的语义独立性。LumberChunker通过迭代地提示LLM，在一系列连续段落中识别内容开始转变的点，从而确保每个块在上下文中是连贯的，但与相邻块有所区别。

LumberChunker遵循一个三步流程。首先，按段落对文档进行分割。其次，通过追加连续的块，创建一个组（Gi），直到超过预定义的标记计数θ。最后，将Gi作为上下文输入到Gemini，Gemini确定显著内容转变开始出现的ID，从而定义了Gi+1的开始和当前块的结束。这个过程在整个文档中循环重复。

实验结果表明，LumberChunker在检索性能上优于其他竞争性基线，特别是在DCG@20指标上，比最接近的竞争者（循环分块：Recursive Chunking）高出7.37%；其它的竞争者分别是：语义分块：Semantic Chunking、段落级：Paragraph-Level、HyDE、命题级：Proposition-Level。

在GutenQA（3000个QA）上使用不同粒度的问题和检索语料库段落的段落检索性能（DCG@k和Recall@k）。每列中的最佳得分以粗体突出显示。

当LumberChunker集成到RAG流程中时，它被证明比其他分割方法和竞争性基线更有效。

LumberChunker不足：

尽管它在性能上优于所有基线，但它需要使用LLM，这使得它在成本和速度上比传统方法更高、更慢。

LumberChunker专门设计用于叙事文本，对于高度结构化的文本，可能不是最优解决方案。

附录：

LumberChunker Gemini Prompt示例，用于书籍《小熊维尼》由A. A.米尔恩著

与表2中的例子不同，表3段落中的代词“He”不能被准确共指，导致命题(propositions)有些模糊。因此，如果用户问到“埃隆·马斯克家族中谁曾经做过牛仔表演者？”这样的问题，一个仅使用命题作为检索单元的模型将无法提供准确的回答。

https://github.com/joaodsmarques/LumberChunkerhttps://arxiv.org/pdf/2406.17526LumberChunker: Long-Form Narrative Document Segmentation

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-19

基于Embedding分块 - 文本分块（Text Splitting），RAG不可缺失的重要环节

2025-04-19

RAG升级-基于知识图谱+deepseek打造强大的个人知识库问答机器人

2025-04-19

RAG vs. CAG vs. Fine-Tuning：如何为你的大语言模型选择最合适的“脑力升级”？

2025-04-19

低代码 RAG 只是信息搬运工，Graph RAG 让 AI 具备垂直深度推理能力！

2025-04-18

微软PIKE-RAG全面解析：解锁工业级应用领域知识理解与推理

2025-04-18

AI 记忆不等于 RAG：对话式 AI 为何需要超越检索增强

2025-04-18

Firecrawl：颠覆传统爬虫的AI黑科技，如何为LLM时代赋能

2025-04-18

什么是RAG与为什么要RAG？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网最全国内Agent平台深度测评：扣子、Dify、FastGPT，谁是你的Agent开发首选？

2024-10-27

一文彻底搞懂大模型 - RAG（检索、增强、生成）

2024-09-04

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

RAGFlow：基于OCR和文档解析的下一代 RAG 引擎

2024-05-05

RAG框架，都在这了!

2024-06-20

RAG 高效应用指南：Embedding 模型的选择和微调

2024-06-13

深入解析 Graph RAG：提升语言模型问答能力的创新策略

2024-07-09

微软开源的GraphRAG解读

2024-07-09

基于Llama 3 构建RAG语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成

2024-05-19

Prompt工程师必备：复旦重磅 | 最佳RAG实践长什么样的？

2024-07-07

大家都在问

RAG vs. CAG vs. Fine-Tuning：如何为你的大语言模型选择最合适的“脑力升级”？

2025-04-19

什么是RAG与为什么要RAG？

2025-04-18

真实场景下落地RAG的十条建议及RAG中如何提升个性化？

2025-04-16

RAG系统中的“幕后英雄”：重排器如何提升信息检索的精准度？

2025-04-14

Dify 基础篇| 深度解读 RAG：为什么需要混合检索？

2025-04-13

OlmOCR如何成为搭建RAG 知识库的"智能中枢"？

2025-04-11

构建Agentic RAG 系统的方法有哪些？

2025-04-09

【AI知识点】什么是Agentic RAG？

2025-04-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB