企业如何从0到1构建RAG系统？

发布日期：2024-11-06 07:46:10 浏览次数： 3116

作者：沙丘社区

微信搜一搜，关注“沙丘社区”

自2022年底OpenAI发布ChatGPT以来，大模型受到市场广泛关注，各行各业积极探索大模型的应用。但从企业实践来看，将大模型无缝集成到企业工作流中存在较多挑战，包括大模型的幻觉、开发和维护大模型的高成本以及由于大模型知识库的局限性而导致的准确率不满足业务需求。

RAG（Retrieval-Augmented Generation，检索增强生成）是一种人工智能框架，旨在利用大语言模型（LLM）进行跨外部知识源的自然语言查询。RAG的核心思想是通过外挂知识库的方式给大模型提供更可靠的知识来抑制模型产生幻觉，通过定期迭代知识库的方式解决大模型知识更新慢和训练成本高的问题。

在实践RAG的过程中，企业会发现RAG走通很容易，但实际落地生产的难度非常大。基于对企业RAG落地实践的调研与研究。

“大模型+RAG”应用指南

为了使RAG能够应用于更加复杂、更具价值的场景，企业需要创建一个完整的RAG系统链路，以便能够通过工程化的技术手段对链路上的不同部分进行实验和优化。RAG链路可分为三个部分：数据准备、知识检索和答案生成。

在数据准备环节，RAG的典型问题包括数据质量差、多模态信息、复杂的PDF提取等；在知识检索环节，RAG的典型问题包括内容缺失、错过排名靠前的文档、不在上下文中等；在答案生成阶段，RAG的典型问题包括未提取、不完整、格式错误、模型幻觉等。

基于对多家企业RAG落地实践的调研与研究，沙丘智库总结了如下六点RAG优化建议：

第一，构建完整的数据准备流程；

第二，采用多种分块方式；

第三，通过查询转换澄清用户意图；

第四，采用混合检索和重排策略；

第五，改进提示词模板；

第六，实施动态防护栏。

“大模型+RAG”典型案例

在《2024年“大模型+RAG”最佳实践报告》中，沙丘智库精选了18家企业的RAG技术实践，例如：

在数据准备环节，阿里云考虑到文档具有多层标题属性且不同标题之间存在关联性，提出多粒度知识提取方案，按照不同标题级别对文档进行拆分，然后基于Qwen14b模型和RefGPT训练了一个面向知识提取任务的专属模型，对各个粒度的chunk进行知识提取和组合，并通过去重和降噪的过程保证知识不丢失、不冗余。最终将文档知识提取成多个事实型对话，提升检索效果；

在知识检索环节，哈啰出行采用多路召回的方式，主要是向量召回和搜索召回。其中，向量召回使用了两类，一类是大模型的向量、另一类是传统深度模型向量；搜索召回也是多链路的，包括关键词、ngram等。通过多路召回的方式，可以达到较高的召回查全率。

在答案生成环节，中国移动为了解决事实性不足或逻辑缺失，采用FoRAG两阶段生成策略，首先生成大纲，然后基于大纲扩展生成最终答案。