微信扫码
与创始人交个朋友
我要投稿
在我们使用RAG搭建了知识库之后,有时需要让我们检索的数据显示数据的来源, 如:该数据来源于某某文档中的第几页之类的,今天我们就来实现该功能,让你的应用更加完善。
langchain+qwen(调用api)
通义千问模型key,申请很简单,有免费额度,注册账号后认证开通,几分钟就搞定。
from langchain_community.vectorstores import FAISS
from langchain_community.embeddings import DashScopeEmbeddings
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
import os
from langchain_community.llms import Tongyi
from langchain import hub
qwen_api_key = "你申请的通义千问api-key"
embeddings = DashScopeEmbeddings(
model="text-embedding-v1", dashscope_api_key=qwen_api_key
)
# 加载之前我们的向量数据库文件
faiss_index = FAISS.load_local('testpdf.faiss', embeddings, allow_dangerous_deserialization=True)
# retriever = faiss_index.as_retriever(search_kwargs={"k": 2}),search_kwargs参数为返回相似的结果个数
retriever = faiss_index.as_retriever()
# 也可以从langchain远程仓库中加载指令模版,先执行pip install langchainhub
#prompt = hub.pull("rlm/rag-prompt")
template = """利用以下上下文回答最后的问题。如果不知道答案,就说不知道,不要试图编造答案。
{context}
Question: {question}
Helpful Answer:"""
prompt = PromptTemplate.from_template(template)
os.environ["DASHSCOPE_API_KEY"] = qwen_api_key
llm = Tongyi()
def format_docs(docs):
return "\n\n".join(doc.page_content for doc in docs)
rag_chain = (
{"context": retriever | format_docs, "question": RunnablePassthrough()}
| prompt
| llm
| StrOutputParser()
)
rag_chain.invoke("请简要说明该文档?")
目前结果没有页数、文件名称等信息
' 这篇文档是关于阿里巴巴集团的更新,提到了公司的环境、社会及治理(ESG)报告,其中包括碳中和承诺和减排进展。此外,文档还介绍了股份回购计划,蚂蚁集团的股份回购计划以及阿里巴巴的决策不参与出售蚂蚁集团的股份。在业务方面,提到了钉钉的新功能以及大文娱集团的业绩,包括优酷和阿里影业的收入增长。最后,文档提到了阿里巴巴集团委任普华永道中天会计师事务所和罗兵咸永道会计师事务所为新财年的审计师。'
from langchain_core.runnables import RunnableParallel
# 构建请求模版,拼接从文档中找到的相似结果,构建上下文内容参数
rag_chain_from_docs = (
RunnablePassthrough.assign(context=(lambda x: format_docs(x["context"])))
| prompt
| llm
| StrOutputParser()
)
# 将用户的问题传递给上下文提示和模型,然后把输出的结果赋值给新的键(answer)
rag_chain_with_source = RunnableParallel(
{"context": retriever, "question": RunnablePassthrough()}
).assign(answer=rag_chain_from_docs)
rag_chain_with_source.invoke("请简要说明该文档?")
从该结果我们可以看出,生成的结果参考文档中的哪些数据块(Document),每个数据块中包含了页数(page),文档的来源(source)等信息。
{'context': [Document(page_content='师事务所为截至 2024年3月31日止财年的审计师,分别负责美国财务报告和香港财务报告。此前,负责我们\n美国财务报告和香港财务报告的审计师为罗兵咸永道会计师事务所。\n \n# # #\n \n关于阿里巴巴集团\n阿里巴巴集团的使命是让天下没有难做的生意,集团旨在构建未来的商业设施,其愿景是让客户相会、工作和生活在\n阿里巴巴,并成为一家活 102年的好公司。\n \n媒体查询\n杨境荣\n阿里巴巴集团\n电话:+85 \n电邮:andre柯璟 \n阿里巴巴集团\n电话:+8\n电邮:ivy.ke@alibaba -inc.com', metadata={'source': 'test.pdf', 'page': 4, 'start_index': 820}),
Document(page_content='钉钉 \n钉钉是我们的智能协作办公及应用程式开发平台,为现代企业和机构提供新的工作、分享和协作方式。本季度,\n钉钉接入 “通义千问 ”的能力,并向企业客户开放测试。钉钉将进一步帮助客户和生态体系合作伙伴释放 AI能\n力的潜力。\n大文娱集团\n截至 2023年6月30日止季度,大文娱集团的收入为人民币 53.81亿元( 7.42亿美元),反映线上娱乐业务的\n增长及线下娱乐业务的强劲复苏。\n本季度,优酷总订阅收入同比增长 5%,主要受到每用户 平均收入增长以及优质原创内容的带动。本季度,于中\n国线上视频平台播出的所有电视剧中,优酷在中国独家播出的《长月烬明》收视率排名第一。\n大麦网作为中国领先的演出赛事线上票务平台,受线下娱乐活动的需求增长所带动,收入强劲复苏,与去年同期\n相比增长迅速。\n截至 2023年6月30日止季度,由于推出多部卖座电影以及中国票房需求强劲,阿里影业的电影及线上平台业\n务收入同比强劲增长。由阿里影业担任联合制片人、主要发行方和宣传方的电影《消失的她》,荣登本季度中国\n票房榜首。', metadata={'source': 'test.pdf', 'page': 3, 'start_index': 777})],
'question': '请简要说明该文档',
'answer': ' 该文档提到了阿里巴巴集团的一些信息,包括其使命和愿景,以及两个联系人用于媒体查询。此外,文档还介绍了钉钉平台的新功能,即接入“通义千问”的AI能力。在财务方面,文档提供了截至2023年6月30日止季度的大文娱集团业绩,其中大文娱集团的收入增长,优酷订阅收入增加,以及大麦网和阿里影业的业务强劲复苏和增长。特别是,电影《消失的她》在本季度成为中国票房冠军。审计师部分提到,负责阿里巴巴集团美国和香港财务报告的审计师已经更换。'}
为什么能实现增加数据来源的功能,之前文章有说过LangChain和qwen实现RAG增强检索,RAG增强搜索是先根据用户提的问题,然后去文档中查找,查找前会把文档切成小块,这些小块中就包含文档的来源信息,比如在那页,文件名称是啥等信息,最终把用户提的问题+相似的答案块一起构建指令,让LLM模型生成结果。
你可以把前面例子中的这句代码增加search_kwargs参数,该参数意思是从文档中返回几个相似性的结果,再执行查询数据来源的代码看看效果。
retriever = faiss_index.as_retriever(search_kwargs={"k": 2})
这里就可以看出,其实数据来源的关键就在这里。在进行数据分块的时候就包含了这些来源信息了。
最后总结:实现数据来源的核心原理就是RAG增强搜索中的数据切块,每一个数据小块中都包含了数据的来源,还有页数等信息,只要你解析文档时包含有这些信息,切块的时候可以保留所需的信息,所以关键还是在文档解析和文档切块这里。如果你想扩展一些参数,可以在此阶段中增加。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-18
2024-09-04
2024-05-05
2024-06-20
2024-07-09
2024-07-09
2024-05-19
2024-06-13
2024-07-07
2024-07-07
2025-01-18
2025-01-18
2025-01-18
2025-01-13
2025-01-09
2025-01-09
2025-01-09
2025-01-06