我要投稿

语义分块真的有效吗？

发布日期：2024-10-21 19:41:19 浏览次数： 2850

作者：深入LLM Agent应用开发

微信搜一搜，关注“深入LLM Agent应用开发”

最近看到一篇有意思的论文《Is Semantic Chunking Worth the Computational Cost?^[1]》，论文探讨了在检索增强型生成（Retrieval-Augmented Generation, RAG）系统中，语义分块（semantic chunking）与传统固定大小分块（fixed-size chunking）的效率和性能比较。

语义分块旨在通过将文档分割成语义上连贯的段落来提高检索性能。尽管语义分块越来越受欢迎，但其相对于固定大小分块的实际好处仍然不清楚。这项研究系统地评估了语义分块的有效性，使用了三个常见的与检索相关的任务：文档检索、证据检索和基于检索的答案生成。

为了测试对比语义分块是否有效，作者设计了 3 种分块策略，如下图所示。

固定大小分块器（Fixed-size Chunker）：这是基线分块器，它根据预定义或用户指定的每个分块的句子数量将文档顺序分割成固定大小的分块。
基于断点的语义分块器（Breakpoint-based Semantic Chunker）：这种分块器通过检测连续句子之间的语义距离阈值来分割文本，以保持连贯性。
基于聚类的语义分块器（Clustering-based Semantic Chunker）：这种分块器利用聚类算法按语义分组句子，捕捉全局关系，并允许非连续文本分组。

文档检索

文档检索测试结果如下表所示。大部分场景都没有明显的差距，除了 Miracl 和 NQ。而这些标*的表示这些都是基于一些较短的句子缝合到一起的，本身句子之间具有较强的独立性。

Dataset	Fixed-size	Breakpoint	Clustering
Miracl*	69.45	81.89	67.35
NQ*	43.79	63.93	41.01
Scidocs*	16.82	17.60	19.87
Scifact*	35.27	36.27	35.70
BioASQ*	61.86	61.87	62.49
NFCorpus*	21.36	21.07	22.12
HotpotQA	90.59	87.37	84.79
MSMARCO	93.58	92.23	93.18
ConditionalQA	68.11	64.44	65.94
Qasper	90.99	89.27	90.77

证据检索

证据检索结果如下表所示。在这种测试下，三者几乎不存在差异。

Dataset	Fixed-size	Breakpoint	Clustering
ExpertQA	47.11	47.08	46.87
DelucionQA	43.05	43.24	43.36
TechQA	28.98	28.49	27.96
ConditionalQA	18.23	19.83	19.14
Qasper	8.66	8.16	8.50

答案生成

基于检索的答案生成测试如下表所示，可以说没有任何区别。

Dataset	Fixed-size	Breakpoint	Clustering
ExpertQA	0.65	0.65	0.65
DelucionQA	0.76	0.76	0.76
TechQA	0.68	0.68	0.68
ConditionalQA	0.42	0.43	0.43
Qasper	0.49	0.49	0.50

总结

研究结果表明，语义分块的计算成本并没有通过一致的性能提升来证明其合理性。这些发现挑战了之前关于语义分块的假设，并强调了在 RAG 系统中需要更有效的分块策略。总体而言，固定大小分块对于实际的 RAG 应用来说仍然是一个更有效和可靠的选择。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-18

DeepEval使用自定义模型评估RAG实例

2025-07-18

用 LangGraph 打造了一个迷你 RAG：150 行代码跑通知识库问答

2025-07-18

RAG文档处理的一种优化方案——问答对的转换技巧

2025-07-18

【精读】构建和扩展 RAG 系统的实践经验总结

2025-07-17

聊聊在Dify上如何做高效RAG&集成Milvus向量库存储检索的原理

2025-07-17

基于Dify 知识库的实验demo：从0到1构建智能商品分类系统

2025-07-16

Dify智能体开发：RAG 技术深度解析与知识库实战指南

2025-07-16

爆改RAG！Relevant Segment Extraction（RSE）让你的AI检索“有头有尾”，不再碎片化

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

深度解读：LlamaIndex 实现 RAG 重排序的关键要点

2025-05-08

RAG技巧与底层代码剖析

2025-06-06

RAG进阶：Embedding Models嵌入式模型原理和选择

2025-04-23

2025年GitHub上十大RAG框架深度解析：从技术原理到实战应用

2025-05-30

淘天⾃营质量技术AI智能体的实践和思考

2025-05-19

RAGFlow中的Embeddings模型选择及向量数据库选型与实现分析

2025-06-05

如何构建基于n8n的RAG日报工作流（手把手教程）

2025-05-10

解决 AI 代码幻觉！用 Context7 获取最新文档，支持 MCP 调用

2025-04-28

RAG技术全解析：从基础原理到优化实战

2025-06-05

检索增强生成（RAG）深度教程

2025-04-21

大家都在问

AI大模型落地最后一公里：RAG？

2025-07-09

向量相似度检索遇到天花板，是否我们走错了？

2025-07-04

RAG检索策略深度解析：从BM25到Embedding、Reranker，如何为LLM选对“导航系统”？

2025-07-01

从碎片到图谱：Graph RAG如何用知识网络颠覆传统搜索？

2025-07-01

qodo如何构建大型代码仓库的RAG？

2025-07-01

RAG系统的“聪明药”：如何用反馈回路让你的AI越用越聪明？

2025-07-01

GraphRAG的索引动态更新解法-分桶+局部更新及“上下文工程”新概念？

2025-06-30

你的RAG系统安全么？

2025-06-29

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部