我要投稿

RAG文本切分的五个层次1：字符切分基础(实战)

发布日期：2024-08-30 14:40:21 浏览次数： 2677

作者：哎呀AIYA

微信搜一搜，关注“哎呀AIYA”

在大模型应用中，时常会出现由于知识库参考内容过多或者长期记忆的内容过长，导致输入模型的成本过高或者超出模型的承载长度。该怎么办呢？

提高语言模型应用程序性能的最有效策略之一是将大数据分成较小的部分。后面的一系列分享将介绍文本切分的一些概念、方法和实战；会涉及很多内容，但如果你能坚持到最后，保证你会对分块理论有一个扎实的掌握。

我们将文本切分定义为五个层级：

Level 1: Character Splitting - 简单的字符长度切分
Level 2: Recursive Character Text Splitting - 通过分隔符切分，然后递归合并
Level 3: Document Specific Splitting - 针对不同文档格式切分 (PDF, Python, Markdown)
Level 4: Semantic Splitting - 语义切分
Level 5: Agentic Splitting-使用代理实现自动切分

本篇文章将介绍字符切分的概念和实现。虽然简单，但有助于我们理解一些参数和整体概念。

字符切分概念

字符分割是分割文本的最基本形式。它是简单地将文本分成n个字符大小的块的过程，而不考虑其内容或形式。

不建议在任何应用程序中使用这种方法，但它是我们理解基础知识的一个很好的起点。

优点:简单容易
缺点:非常死板，没有考虑到文本的结构

两个小概念:

Chunk Size(块大小)-块中包含的字符数量。50、100、10万等等。

Chunk Overlap(块重叠)-为了避免重要信息被切开成多个部分，希望有连续块重叠，overlap就是重叠块的大小。

下面看个例子，来看看字符切分逻辑：

text = "2024年一季度公司实现营业收入24.56亿元（-12.60%），实现归母净利润19.54亿元（-3.70%），扣非后归母净利润19.37亿元（+2.38%），基本每股收益0.12元，（-3.36%）。"
chunks = []chunk_size = 35
for i in range(0, len(text), chunk_size):    chunk = text[i:i + chunk_size]  # 每隔35是一个块    chunks.append(chunk)print(chunks)

在实际工程使用中，我们都不是孤立的切分文本，而是对文档进行切分，下面我们使用langchain和llama_index来演示这个过程。

LangChain实现

导入模块：

from langchain.text_splitter import CharacterTextSplitter

切分文档

上面text内容按35个字符被切分成多个片段了：

text_splitter = CharacterTextSplitter(chunk_size=35, chunk_overlap=0, separator='', strip_whitespace=False)print(text_splitter.split_text(text))

加入overlap

通过加入overlap，我们可以发现下面的：%），实现，母净利润1 在两个片段中出现了。

text_splitter = CharacterTextSplitter(chunk_size=35, chunk_overlap=5, separator='', strip_whitespace=False)st = text_splitter.split_text(text)pprint(st)

加入separator

先利用separator将文档切分成小块，再使用长度对小块进行切割：

text_splitter = CharacterTextSplitter(chunk_size=35, chunk_overlap=0, separator='，', strip_whitespace=False)print(text_splitter.split_text(text))

LLama-Index实现

加载依赖模块

from llama_index.core.text_splitter import SentenceSplitterfrom llama_index.core import SimpleDirectoryReader

构建切分器

splitter = SentenceSplitter(chunk_size=200,chunk_overlap=15,)

加载文档

documents = SimpleDirectoryReader(input_files=["./test.txt"]).load_data()

切分文档

nodes = splitter.get_nodes_from_documents(documents)

nodes里面不仅包含了切分的文本信息，也包含了很多额外的相关内容。可以去探索...

至此，你已经学会了字符切分的全部概念和实战，让我们下篇继续吧。

如果对内容有什么疑问和建议可以私信和留言，也可以添加我加入大模型交流群，一起讨论大模型在创作、RAG和agent中的应用。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-10-16

基于大模型的智能问答场景解决方案——RAG提升召回率的关键

2025-10-16

用合成数据评测 RAG 系统：一份可直接上手的 DeepEval 实操指南

2025-10-16

2025 年 RAG 最佳 Reranker 模型

2025-10-16

HiRAG问答流程深入分析

2025-10-13

LightRAG × Yuxi-Know——「知识检索 + 知识图谱」实践案例

2025-10-13

PG用户福音｜一次性搞定RAG完整数据库套装

2025-10-12

任何格式RAG数据实现秒级转换！彻底解决RAG系统中最令人头疼的数据准备环节

2025-10-12

总结了 13 个顶级 RAG 技术

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

RAG彻底爆了！一文掌握其效果优化的架构设计及核心要点

2025-09-15

响应速度提升300%、检索准确率90%：RAG如何让企业知识“活”起来赚钱？

2025-08-05

从原理到落地：RAG 技术全解析，手把手教你搭建专属知识库

2025-09-02

优化 GraphRAG：LightRAG的三大改进

2025-08-18

RAG系统全景：架构详解与落地实践指南

2025-08-25

高质量AI知识库应用的前提：选对向量数据库

2025-08-25

RAG实战：借助RAGFlow做一个员工智能助理

2025-07-21

一文搞懂大模型：何为深入理解RAG？

2025-08-25

DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？

2025-09-03

别再往AI的知识库塞奇怪的东西了，什么样的知识适合作为RAG知识库？

2025-08-20

大家都在问

Embedding与Rerank：90%的RAG系统都搞错了！为什么单靠向量检索会毁了你的AI应用？

2025-10-04

存算一体破局向量检索瓶颈，IBM放出王炸VSM：性能飙升100倍，能效碾压GPU千倍，RAG要变天？

2025-09-30

您应该为您的 RAG 系统使用哪种分块技术？

2025-09-10

关于多模态应用的几个疑问，以及多模态应该怎么应用于RAG？

2025-09-10

DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？

2025-09-03

RAG检索后如何应用更有效？

2025-08-28

一文搞懂大模型：何为深入理解RAG？

2025-08-25

别再往AI的知识库塞奇怪的东西了，什么样的知识适合作为RAG知识库？

2025-08-20

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB