我要投稿

【开源】基于OCR和文档解析的下一代 RAG 引擎，结合大语言模型（LLM）针对用户各类不同的复杂格式数据提供可靠的问答

发布日期：2024-04-19 06:53:34 浏览次数： 2625

作者：soft张三丰

微信搜一搜，关注“soft张三丰”

介绍

它是一款基于深度文档理解构建的开源 RAG（Retrieval-Augmented Generation）引擎。它主要为各种规模的企业及个人提供一套精简的 RAG 工作流程，结合大语言模型（LLM）来处理用户各类不同的复杂格式数据，并提供可靠的问答以及有理有据的引用。

它的主要功能包括：

1. 深度文档理解：能够从各类复杂格式的非结构化数据中提取真知灼见。

2. 基于模板的文本切片：提供多种文本模板，实现智能且可控的文本处理。

3. 降低幻觉（hallucination）：通过文本切片过程可视化，支持手动调整，确保答案提供关键引用的快照并支持追根溯源。

4. 兼容各类异构数据源：支持丰富的文件类型，包括 Word 文档、PPT、Excel 表格、txt 文件、图片、PDF、影印件、复印件、结构化数据, 网页等。

5. 全程无忧、自动化的 RAG 工作流：优化了 RAG 工作流，支持从个人应用到超大型企业的各类生态系统，提供易用的 API，便于集成到各类企业系统中。

它的推出，是为了解决目前 RAG（Retrieval-Augmented Generation）在实施中遇到的问题，如数据库的多路召回能力和数据处理问题。通过提供专用的数据库和工具，旨在使 RAG 更易于被更多企业和个人使用，并解锁更多应用场景。

在很长一段时间内，RAG 在行业的代名词都叫知识库，上述的应用架构，不仅带火了向量数据库，也带火了以LangChain，LlamaIndex 为代表的中间件，它们负责处理上图中各个箭头背后的工作流。具体包括：

1、把用户的文档进行切分，然后再调用一个 Embedding 模型把切分好的文档生成为向量。

2、把生成好的向量连同原始文档写入到向量数据库中。

3、查询时，将用户的提问也根据相同的 Embedding 模型生成向量，然后查询向量数据库返回 Top K 结果。

4、把 Top K 结果对应的文本拼成提示词交由大模型做最终的摘要和内容完成。

因此，整个架构图里核心部分是两个：

1、向量数据库：负责基于向量对用户的文档进行查询召回。

2、中间件：负责对文档的切分，并转成适合的向量。

采用向量这种形式是因为向量可以提供语义召回，用户只要提问，最终能按照相似度高低返回最接近的答案而无需考虑问题是否真的有哪些关键词匹配到了文档。即使没有匹配，也依然可以根据语义相似度返回答案。之所以需要对用户文档进行切分，是因为向量表征的语义比较含糊，不仅一篇文章可以表征为一个向量，一个单词也可以表征为一个向量，这就导致文字块跟向量对应的粒度很难控制：粒度过粗，用一条向量对应一大段话，对这些文字的细节很难表征；粒度过细，那么一大段文字会对应一堆向量，而每个向量又仅仅代表几个词的语义，因此无法简单根据相似度来找到符合语义的向量。因此，需要对文档进行“恰当”的切分，这就是 LangChain，LlamaIndex 等中间件的核心工作。

那么，如何定义“恰当”呢？通常会采取一些简单的策略：例如先根据文字间的空白将文档切分成不同的段落，这些段落表征的粒度相对比较适合。随后通常会把一些标题（通常需要根据一些规则来判断）跟这些段落合并，让这些只包含局部文字的段落也能体现整篇文章或者部分章节的语义。

因此，有了这类组件就可以快速搭建一套 RAG 系统。不过，自从这种应用架构从 23 年 4 月开始流行，就一直面临一个争论：“把用户的数据微调进大模型直接回答问题更好，而无需 RAG 这一整套基于检索的架构”。这类争论伴随了整个 2023 年。直到今天，这类争论的声音才渐渐淡去。因为，很显然，无论是实时性还是成本等方面，采用 RAG 是碾压对 LLM 进行微调的方案的。支持微调的拥护者所最看重的问答质量，但更多评测发现，两者差距并不大，而逐渐得出了两者需要搭配使用的结论。并且，这种所谓搭配使用的方案，随着开源 LLM 不断快速迭代推陈出新，也导致实际真正采用微调的已寥寥无几。