我要投稿

langchain和qwen为搭建RAG文档知识库增加数据来源

发布日期：2024-04-24 05:52:47 浏览次数： 3360

作者：河指令

微信搜一搜，关注“河指令”

在我们使用RAG搭建了知识库之后，有时需要让我们检索的数据显示数据的来源，如：该数据来源于某某文档中的第几页之类的，今天我们就来实现该功能，让你的应用更加完善。

使用到的技术

langchain+qwen(调用api)

环境准备

通义千问模型key，申请很简单，有免费额度，注册账号后认证开通，几分钟就搞定。

教程开始

引入相关依赖

from langchain_community.vectorstores import FAISS
from langchain_community.embeddings import DashScopeEmbeddings
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
import os
from langchain_community.llms import Tongyi
from langchain import hub

没增加数据来源前

qwen_api_key = "你申请的通义千问api-key"

embeddings = DashScopeEmbeddings(
    model="text-embedding-v1", dashscope_api_key=qwen_api_key
)
# 加载之前我们的向量数据库文件
faiss_index = FAISS.load_local('testpdf.faiss', embeddings, allow_dangerous_deserialization=True)

# retriever = faiss_index.as_retriever(search_kwargs={"k": 2})，search_kwargs参数为返回相似的结果个数
retriever = faiss_index.as_retriever()
# 也可以从langchain远程仓库中加载指令模版，先执行pip install langchainhub
#prompt = hub.pull("rlm/rag-prompt")

template = """利用以下上下文回答最后的问题。如果不知道答案，就说不知道，不要试图编造答案。

{context}

Question: {question}

Helpful Answer:"""
prompt = PromptTemplate.from_template(template)

os.environ["DASHSCOPE_API_KEY"] = qwen_api_key

llm = Tongyi()

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

rag_chain = (
  {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

rag_chain.invoke("请简要说明该文档?")

返回的结果

目前结果没有页数、文件名称等信息

' 这篇文档是关于阿里巴巴集团的更新，提到了公司的环境、社会及治理（ESG）报告，其中包括碳中和承诺和减排进展。此外，文档还介绍了股份回购计划，蚂蚁集团的股份回购计划以及阿里巴巴的决策不参与出售蚂蚁集团的股份。在业务方面，提到了钉钉的新功能以及大文娱集团的业绩，包括优酷和阿里影业的收入增长。最后，文档提到了阿里巴巴集团委任普华永道中天会计师事务所和罗兵咸永道会计师事务所为新财年的审计师。'

为检索增加数据来源信息

from langchain_core.runnables import RunnableParallel

# 构建请求模版，拼接从文档中找到的相似结果，构建上下文内容参数
rag_chain_from_docs = (
    RunnablePassthrough.assign(context=(lambda x: format_docs(x["context"])))
    | prompt
    | llm
    | StrOutputParser()
)

# 将用户的问题传递给上下文提示和模型，然后把输出的结果赋值给新的键（answer）
rag_chain_with_source = RunnableParallel(
  {"context": retriever, "question": RunnablePassthrough()}
).assign(answer=rag_chain_from_docs)

rag_chain_with_source.invoke("请简要说明该文档?")

增加数据来源代码后返回的结果

从该结果我们可以看出，生成的结果参考文档中的哪些数据块（Document），每个数据块中包含了页数（page），文档的来源（source）等信息。

{'context': [Document(page_content='师事务所为截至 2024年3月31日止财年的审计师，分别负责美国财务报告和香港财务报告。此前，负责我们\n美国财务报告和香港财务报告的审计师为罗兵咸永道会计师事务所。\n \n# # #\n \n关于阿里巴巴集团\n阿里巴巴集团的使命是让天下没有难做的生意，集团旨在构建未来的商业设施，其愿景是让客户相会、工作和生活在\n阿里巴巴，并成为一家活 102年的好公司。\n \n媒体查询\n杨境荣\n阿里巴巴集团\n电话：+85 \n电邮：andre柯璟 \n阿里巴巴集团\n电话：+8\n电邮：ivy.ke@alibaba -inc.com', metadata={'source': 'test.pdf', 'page': 4, 'start_index': 820}),
Document(page_content='钉钉 \n钉钉是我们的智能协作办公及应用程式开发平台，为现代企业和机构提供新的工作、分享和协作方式。本季度，\n钉钉接入 “通义千问 ”的能力，并向企业客户开放测试。钉钉将进一步帮助客户和生态体系合作伙伴释放 AI能\n力的潜力。\n大文娱集团\n截至 2023年6月30日止季度，大文娱集团的收入为人民币 53.81亿元（ 7.42亿美元），反映线上娱乐业务的\n增长及线下娱乐业务的强劲复苏。\n本季度，优酷总订阅收入同比增长 5%，主要受到每用户 平均收入增长以及优质原创内容的带动。本季度，于中\n国线上视频平台播出的所有电视剧中，优酷在中国独家播出的《长月烬明》收视率排名第一。\n大麦网作为中国领先的演出赛事线上票务平台，受线下娱乐活动的需求增长所带动，收入强劲复苏，与去年同期\n相比增长迅速。\n截至 2023年6月30日止季度，由于推出多部卖座电影以及中国票房需求强劲，阿里影业的电影及线上平台业\n务收入同比强劲增长。由阿里影业担任联合制片人、主要发行方和宣传方的电影《消失的她》，荣登本季度中国\n票房榜首。', metadata={'source': 'test.pdf', 'page': 3, 'start_index': 777})],
 'question': '请简要说明该文档',
 'answer': ' 该文档提到了阿里巴巴集团的一些信息，包括其使命和愿景，以及两个联系人用于媒体查询。此外，文档还介绍了钉钉平台的新功能，即接入“通义千问”的AI能力。在财务方面，文档提供了截至2023年6月30日止季度的大文娱集团业绩，其中大文娱集团的收入增长，优酷订阅收入增加，以及大麦网和阿里影业的业务强劲复苏和增长。特别是，电影《消失的她》在本季度成为中国票房冠军。审计师部分提到，负责阿里巴巴集团美国和香港财务报告的审计师已经更换。'}

为什么能实现该功能

为什么能实现增加数据来源的功能，之前文章有说过LangChain和qwen实现RAG增强检索，RAG增强搜索是先根据用户提的问题，然后去文档中查找，查找前会把文档切成小块，这些小块中就包含文档的来源信息，比如在那页，文件名称是啥等信息，最终把用户提的问题+相似的答案块一起构建指令，让LLM模型生成结果。

你可以把前面例子中的这句代码增加search_kwargs参数，该参数意思是从文档中返回几个相似性的结果，再执行查询数据来源的代码看看效果。

retriever = faiss_index.as_retriever(search_kwargs={"k": 2})

这里就可以看出，其实数据来源的关键就在这里。在进行数据分块的时候就包含了这些来源信息了。

最后总结：实现数据来源的核心原理就是RAG增强搜索中的数据切块，每一个数据小块中都包含了数据的来源，还有页数等信息，只要你解析文档时包含有这些信息，切块的时候可以保留所需的信息，所以关键还是在文档解析和文档切块这里。如果你想扩展一些参数，可以在此阶段中增加。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-15

从知识检索到自主决策：传统RAG与Agent搜索的深度对比

2025-07-15

RAG彻底爆了！一文读懂其架构演进及核心要点

2025-07-15

长上下文在大语言模型检索增强生成（RAG）中的作用：全面综述

2025-07-15

重新思考RAG的相关性：相似≠相关

2025-07-14

亲测成功！小白用AI工具0代码搭建RAG问答系统全过程揭秘

2025-07-14

RAG（检索增强生成）科普介绍

2025-07-14

文档太长模型“吃不下”？15种Chunking神技，助你打造聪明绝顶的RAG系统！

2025-07-14

RAG检索不准？99%的人都忽略了这一步！

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

RAG vs. CAG vs. Fine-Tuning：如何为你的大语言模型选择最合适的“脑力升级”？

2025-04-19

深度解读：LlamaIndex 实现 RAG 重排序的关键要点

2025-05-08

RAG进阶：Embedding Models嵌入式模型原理和选择

2025-04-23

RAG技巧与底层代码剖析

2025-06-06

2025年GitHub上十大RAG框架深度解析：从技术原理到实战应用

2025-05-30

淘天⾃营质量技术AI智能体的实践和思考

2025-05-19

RAGFlow中的Embeddings模型选择及向量数据库选型与实现分析

2025-06-05

解决 AI 代码幻觉！用 Context7 获取最新文档，支持 MCP 调用

2025-04-28

RAG技术全解析：从基础原理到优化实战

2025-06-05

如何构建基于n8n的RAG日报工作流（手把手教程）

2025-05-10

大家都在问

AI大模型落地最后一公里：RAG？

2025-07-09

向量相似度检索遇到天花板，是否我们走错了？

2025-07-04

RAG检索策略深度解析：从BM25到Embedding、Reranker，如何为LLM选对“导航系统”？

2025-07-01

从碎片到图谱：Graph RAG如何用知识网络颠覆传统搜索？

2025-07-01

qodo如何构建大型代码仓库的RAG？

2025-07-01

RAG系统的“聪明药”：如何用反馈回路让你的AI越用越聪明？

2025-07-01

GraphRAG的索引动态更新解法-分桶+局部更新及“上下文工程”新概念？

2025-06-30

你的RAG系统安全么？

2025-06-29

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB