AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


构建“生产就绪”的企业级RAG应用的6大优化考量【下】
发布日期:2024-08-27 07:41:03 浏览次数: 1706 来源:AI大模型应用实践



多模态文档处理

企业中有很多的知识并不总是简单的文字形态,很多是以半结构化与非结构化文档的形式存在,最常见的就是图、文、表混排的PDF文档。针对复杂PDF文档的解析、分割与向量化是常见的一种复杂知识处理需求,且在实际应用中达到的效果往往不尽如人意(有少量原因是一些文档自身排版与格式的过度随意与不规范)。
    处理复杂多模态文档一般需要借助到第三方的PDF解析工具、多模态大模型、关联检索等技术。整体上的思路如下:

以最常见的复杂PDF处理为例:

1. 借助解析工具从PDF中分类提取Text、Table、Image不同形态内容;提取的Table内容一般用Markdown文本等表示,Image则提取成本地或网络文件。
2. 对不同形态的提取内容采用不同的索引与检索方法处理:
  • 【文本】:按照普通文本知识相同的方法做向量嵌入与检索。
  • 【表格】:直接对Table的文本内容做嵌入通常检索效果欠佳,可以借助大模型(LLM)生成表格内容描述与摘要用于嵌入与检索(比如下图)。这有利于提高检索精准度及LLM对表格内容的理解。在检索阶段,需要关联检索出原始的Table内容用于后续生成
  • 【图片】借助多模态视觉大模型比如qwen-vl,gpt-4v结合OCR技术对图片进行理解是常见的方法。还可进一步分为两种处理情况:
  • * 将纯文字信息图片利用OCR识别转化成文本信息。在识别成纯文本后,按照普通的文字信息作嵌入与检索即可。
    * 理解并生成图片的摘要与总结信息用于嵌入与检索。但是在检索后需要关联检索出原始图片用于后续生成

3. 在查询阶段,将上述检索出来的关联知识输入大模型进行生成,注意如果需要输入原始图片,则需要借助多模态模型进行响应生成。
上述流程中主要涉及到三种关键技术:

文档解析


主要针对半结构化/结构化的PDF文档解析与提取,考虑的工具为:
  • Unstructured:强大的非结构化数据处理平台与工具,提供商业在线API服务与开源SDK两种使用方式。支持复杂文档如PDF/PPT/DOC等的高效解析与处理,包括清理、语义分割、提取实体等。缺点是较为复杂,类似的还有OmniParse开源平台。
  • LlamaParse:这是著名的LLM开发框架LlamaIndex提供的在线文档解析服务,主要提供复杂PDF文档的在线解析与提取,其最大优势是与LlamaIndex有极好的集成,比如可以借助模型在提取时自动生成表格的摘要信息。缺点是必须在线使用。
  • Open-Parse:一个相对轻量级的复杂文档分块与提取的开源库。支持语义分块与OCR,简单易用,且支持与LlamaIndex框架的集成,比如将提取的文档直接转化为LlamaIndex中的Node。
  • 此外,国内开源的RAG引擎平台RAGFlow内置了很强的深度文档理解能力,(但未开放文档解析的独立API),如果你需要构建基于深度文档解析的在线RAG引擎,可以考虑尝试。

多模态模型 & OCR


多模态视觉模型可以借助在线的智谱GLM-4v,阿里qwen-vl,Openai的GPT-4o,或部署开源的Llava模型等。如果希望提取图像中的文本信息(如文字扫描图像),则需要结合OCR技术:
  • 一种是借助具备OCR能力的多模态模型比如qwen-vl
  • 一种是借助专业的OCR模型与工具库。比如上面的unstructured、ominiparse都可以在加载语言的模块后具备OCR识别能力


关联检索


在将多模态内容输入给LLM生成时,往往需要借助关联检索从向量检索出来的Chunk关联到原始的表格内容或者图片,这种关联检索在常见的两种框架中都有支持:
  • LangChain:可借助多向量存储与检索(MultiVectorRetriever)来实现,将存储向量的VectorStore与图片存储做关键存储与检索
  • LlamaIndex:可借助构建递归检索器(RecursiveRetriever)来实现,将存储文本向量的Node指向存储原始表格内容或图片的Node

高级检索与查询重写

高级检索请参考独立文章:一文说清大模型RAG应用中的两种高级检索模式:你还只知道向量检索吗?
查询重写(也可以称作查询转换,或者查询分析等),已经成为大模型应用中一种很重要的工作环节。有时,用户查询可能不够明确或不够具体,这就需要查询重写以提高检索准确性。因此,查询转换是一种“检索前”的流程环节,用于将输入问题更换成一种或者多种其他形式的查询输入。
我们介绍RAG应用中常见的四种查询重写策略:

HyDE重写


HyDE(Hypothetical Document Embeddings,假设性文档嵌入)是一种已经被证明在很多场景下有着较好效果的查询改写技术。其基本过程是:
  1. 根据输入问题,生成一个假设性的答案。注意,这个答案来自LLM本身的知识,可能包含错误或者不够准确。
  2. 对该假设性的答案进行嵌入,并检索出具有相似向量的知识块(可以同时携带原问题)。
  3. 用检索出的知识块和原问题借助LLM生成最终答案。
HyDE方案被证明在很多场景下可以提高检索的准确率,但缺点在于假设文档有可能误导查询或者引入偏差,需要谨慎使用。

分步问题重写


分步问题重写的思想为:从初始的复杂查询开始,经过多步的查询转换与检索生成,直至能够完整的回答输入问题。每一次转换都基于之前的推理过程,提出下一步的问题,通常是为了解答原问题所需要的一个步骤中的问题。以一个例子说明:“2022年世界杯冠军球队的成员有哪些?”,那么基本过程如下:
  1. 分解出第一个问题:“2022年世界杯冠军球队是哪个国家队?”,然后首先查询出该问题的答案。
  2. 根据原问题以及之前的推理过程,分解出第二个问题:“2022年世界杯阿根廷国家队球员有哪些球员?”
  3. 对分解出的第二个问题进行查询,并得出最终答案。

分步问题重写过程有点类似Agent完成任务的推理过程:观察已有的过程,并根据原始问题,推理下一步的问题。

子问题重写


与分步问题重写类似的是子问题重写。子问题重写是在问答时通过生成与原问题相关的多个具体的子问题,帮助更好的解释与理解原问题,并有助于得出最终答案。其基本过程是:
  1. 将输入问题借助LLM生成多个相关的子问题,这些子问题可以是LLM自身可以回答,也可以是借助某个已有的RAG引擎能够回答。
  2. 对多个子问题进行查询,通过检索生成,得出子问题的答案。
  3. 根据多个子问题的答案与原问题,推理并合成,输出最终问题答案。

子问题重写也类似Agent在完成任务过程中的子任务分解 ,因此在实际应用中常常会利用Agent的思想:将一个问题推理分解成可以由多个RAG引擎(或Agent工具)回答的子问题,各自完成后合成答案。

后退问题重写


后退问题重写通常用来引导LLM从具体事例中提取出更加通用或关于基本原理的问题,再利用这些问题的答案重新推理原问题的答案。这种方法可以显著提高LLM遵循正确的推理路径解决问题的能力。其基本过程是:
  1. 借助LLM将原问题解释为一个更通用的后退问题。比如原问题是“Joe出生在哪个国家?在哪里度过了他的童年”。生成的后退问题可能是“Joe的生平经历有哪些”。
  2. 对重写的后退问题进行RAG检索与生成,获得相关的知识内容与答案。
  3. 将重写问题的生成答案、原问题输入(也可结合原问题检索的相关知识)再次通过LLM进行生成,输出最终答案。

RAG应用评估

在将一个软件投入应用与生产之前,传统软件过程中一个必不可少的流程环节是软件测试与评估,这是验证与衡量软件是否具备上线与生产条件的重要手段。具体到RAG应用(包括Agent),作为一种新的人工智能时代的应用形式,这个环节仍然举足轻重,甚至显得比传统应用更加重要,这源自于:
  • 需要衡量大模型输出不确定性的影响。


  • LLM应用在持续演进中的能力改进评估。
  • 定期评估与了解知识库变化带来的影响与干扰。
  • 评估大模型或嵌入模型的选择,以及版本的影响。

基于大模型的RAG应用与传统的软件应用还有一个很大的不同:传统应用软件的输出大多是确定且易于衡量的,比如输出一个确定的数值;而RAG应用中的输入输出都是自然语言,评估其相关性与准确性等都无法通过简单的定量判断,往往需要借助基于更智能的工具与评估模型来完成。

评估依据与指标


RAG应用评估的依据,也即评估模块的输入一般包括以下要素:
  • 输入问题(question):即用户在使用RAG 应用时的输入问题。
  • 响应结果(answer):RAG应用的最终输出,即问题的答案。
  • 上下文(contexts):用来增强RAG应用输出的参考上下文。
  • 事实依据(reference_answer):真实的正确答案,通常需要人类标注。

基于这些评估的依据,对RAG应用进行评估的常见指标有:
名称


相关输入


解释


正确性


correctness


answer


reference_answer


生成的答案与参考答案的匹配度。往往涵盖了回答的语意相似度与事实相似度。


语义相似度


Semantic Similarity


answer


reference_answer


生成的答案与参考答案在语义上的相似度。


忠实度


faithfulness


answer


contexts


答案与检索出的上下文的一致性。即答案内容是否能从检索出的context中推理出来。或者说,是否存在幻觉。


上下文相关性


Context 


relevancy


contexts


question


检索出的上下文与用户问题之间的相关性。即上下文中有多少内容是和输入question相关。


答案相关性


Answer 


relevancy


answer


question


答案与用户问题的相关性。即答案是否完整且不冗余地回答了输入问题,此次不考虑答案的正确性。


上下文精度


Context 


precision


contexts


reference_answer


检索出的相关上下文中与正确答案相关的条目是否排名较高。


上下文召回率


Context 


recall


contexts


reference_answer


检索出的相关上下文与正确答案之间的一致程度。即正确答案的内容是否能够归因到上下文。



RAG评估技术


RAG应用的评估可以借助开发框架自身的评估工具与模块:
  • LlamaIndex的Evaluation模块,内置了检索与生成阶段的各指标评估器。
  • Langchain的LangSmith平台,有完善的评估数据集管理与批量评估方案。

也可借助第三方的评估框架,它们通常与上述框架具有较好的集成性,比如:
  • RAGAS评估框架(可参考:如何科学评估RAG应用?基于大模型的RAG应用中的四个常见问题及方案探讨【下】
  • LangFuse:一个类似LangSmith的开源大模型应用工程化平台




53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询