微信扫码
与创始人交个朋友
我要投稿
文档长度过长:现代文档往往包含大量信息,例如企业的内部报告、法律文书、科研论文等。如果直接将长文档嵌入到向量空间中进行检索,容易出现信息冗余,甚至降低检索的效率和精度。
检索精度不高:许多文档检索系统在面对较长的文档时难以精准匹配用户的查询。这种情况下,用户的查询结果往往与其期望值有偏差,尤其是在查询较短且具体时,直接检索长文档难以提供理想的答案。
上下文连贯性差:为了提高检索精度,系统可能会将文档细分为更小的块。然而,这种做法往往会牺牲上下文的连贯性,导致用户在获得片段化信息时无法完整理解文档的内容。
Parent Chunks 分割:首先,将文档分割成较大的文本块,称为 Parent Chunks。每个 Parent Chunk 代表文档中的一个较大部分,通常包含多个段落或章节,大小可根据需求进行调整,常见设定为 2000 个字符左右。通过这样的分割,系统能够在保证上下文连贯性的同时,保持信息的整体性。
Child Chunks 分割:每个 Parent Chunk 进一步细分为更小的块,称为 Child Chunks。每个 Child Chunk 通常包含一个段落或几句话,大小同样可以根据需求设定,一般为 400 个字符。这一分割方式既能保留 Parent Chunk 的上下文关系,又能提高检索的精度。
Child Chunks 嵌入:使用预训练的模型(例如 BERT、GPT 等)将每个 Child Chunk 转换为向量。这些向量代表了文本块的语义信息,可以通过向量检索算法来进行比对和匹配。
保持关联关系:Child Chunks 与其对应的 Parent Chunk 保持关联,在后续的检索过程中可以对 Parent Chunk 进行合并,确保用户获取的信息上下文连贯。这种多层次分割结构不仅提高了检索的精度,还能保持文档整体的连贯性。
Query 嵌入:用户的查询被转换为向量形式,并与存储在数据库中的 Child Chunk 向量进行匹配。
Child Chunks 搜索:在向量数据库中搜索与查询向量相似的 Child Chunks。通过这种方式,系统能够精准匹配用户的查询,尤其是在短查询的情况下,Child Chunk 的检索精度更高。
Parent Chunks 确定:根据检索到的 Child Chunks,系统可以快速定位这些子块所属的 Parent Chunks,确保用户能够获得与查询上下文相关的完整信息。
合并 Parent Chunks:当检索结果返回多个相关的 Child Chunks 时,系统会自动合并这些子块对应的 Parent Chunks,形成一个完整的文档部分。
排序和过滤:为了确保用户获得最相关的结果,系统会对返回的 Parent Chunks 进行排序和过滤,以保证用户看到的内容是最符合其查询需求的。
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import TextLoader
# 加载文档
loaders = [
TextLoader("example_data/FDR_State_of_Union_1944.txt"),
TextLoader("example_data/Lincoln_State_of_Union_1862.txt"),
]
docs = []
for loader in loaders:
docs.extend(loader.load())
# 创建Parent Chunks
parent_splitter = RecursiveCharacterTextSplitter(chunk_size=2000)
# 创建Child Chunks
child_splitter = RecursiveCharacterTextSplitter(chunk_size=400)
2. 向量嵌入
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings
from langchain.storage import InMemoryStore
# 创建向量存储
vectorstore = Chroma(
collection_name="split_parents", embedding_function=OpenAIEmbeddings()
)
# 创建存储层
store = InMemoryStore()
# 创建检索器
retriever = ParentDocumentRetriever(
vectorstore=vectorstore,
docstore=store,
child_splitter=child_splitter,
parent_splitter=parent_splitter,
)
# 添加文档
retriever.add_documents(docs)
# 获取存储的文档数量
print(len(list(store.yield_keys())))
# 搜索相似的Child Chunks
sub_docs = vectorstore.similarity_search("justice breyer")
print(sub_docs[0].page_content)
# 获取相关的Parent Chunks
retrieved_docs = retriever.get_relevant_documents("justice breyer")
print(len(retrieved_docs[0].page_content))
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-19
五大场景实践 深度解读指标平台业务价值
2024-11-19
SaaS观点:AI正在改造软件
2024-11-18
RPA与AI的结合:变革业务自动化的协同效应丨AI时刻
2024-11-18
替代 NL2SQL,Agent+业务语义的创新产品设计
2024-11-16
腾讯分析型 BI+AI 产品 OlaChat 创新探索
2024-11-12
国产 BI 的“耻辱”:QuickBI 的“后发优势”(删改版)
2024-11-12
让数据分析像聊天一样简单|观远ChatBI来了
2024-11-12
量化投资4.0:利用自动化、可解释和知识驱动的人工智能进行工程化量化投资
2024-06-20
2024-07-03
2024-06-14
2024-06-06
2024-06-14
2024-06-21
2024-06-16
2024-06-07
2024-07-21
2024-07-01
2024-11-19
2024-11-06
2024-10-25
2024-10-25
2024-10-25
2024-10-18
2024-10-09
2024-10-07