微信扫码
添加专属顾问
我要投稿
掌握检索增强生成技术,提高文本生成的事实准确性和领域适应性。 核心内容: 1. RAG技术概述及其在减少幻觉现象中的应用 2. RAG流程和关键步骤解析,包括查询编码和信息检索 3. RAG在金融问答领域的实践案例与优化方法
检索增强生成(RAG)是一种强大的技术,它通过在文本生成过程中集成外部知识检索来增强大语言模型(LLMs)。RAG 可以减少幻觉现象,提高事实准确性,并支持特定领域的优化。本文将探讨 RAG 流程及其数学基础、检索机制(DPR、BM25)、FAISS 优化、权衡考量,以及其在金融问答(QA)中的应用。
大型语言模型(LLMs)如 GPT-4 能够根据从海量数据中学习到的模式生成文本。然而,它们存在一个主要局限性——无法实时访问新的或外部知识。这意味着它们有时会产生“幻觉”,即生成听起来正确但实际上错误的信息。
检索增强生成(RAG)通过结合文本生成与实时信息检索来解决这一问题。RAG 模型不仅依赖于预训练的知识,还会在生成回答之前从外部来源(如 Wikipedia、研究论文、财务报告或数据库)检索相关文档。这使得它们的回答更加准确且与时俱进。
检索增强生成(RAG) 通过在生成回答之前检索相关信息,增强了大型语言模型(LLMs)的能力。这确保了输出内容更加准确、符合事实,并且与上下文相关。RAG 采用一个结构化的流程,可以分为四个关键步骤,以便更好地理解其工作原理:
查询编码将用户的问题转换为可搜索的格式。当用户提出问题或输入查询时,系统并不会将其简单地视为普通文本,而是会将查询转换为数值格式,使其能够与存储的文档进行高效比较。
这一转换由 AI 驱动的神经编码器完成,例如 BERT(双向编码器表示) 或 SecBERT(专门针对金融或安全数据优化的 BERT 版本)。
示例:
如果用户询问 “通货膨胀如何影响股票价格?”,系统会将该查询转换为一个密集向量(dense vector),捕捉其核心含义。这样,即使相关文档使用的是不同的表述,如 “通货膨胀与股市的关系”,系统仍然能够找到匹配的内容。
这一阶段的目标是找到最相关的信息。当查询被编码后,系统会在文档数据库中搜索最匹配的内容,以确保模型能够访问真实、最新、符合事实的材料,而不仅仅依赖于训练时学到的知识。
主要有两种检索方法:
示例:
如果用户询问 “投资加密货币有哪些风险?”,检索引擎可能会从数百万篇文档中找到以下内容:
这些检索到的文档将在下一步进行整合(Fusion)。
这一阶段涉及将检索到的信息与用户查询融合。由于系统可能会检索到多篇相关文档,它需要决定如何有效地利用这些信息。简单地将所有文本输入语言模型是不高效的,甚至可能让 AI 产生混乱。
常见的融合方式包括:
示例:
如果用户询问 “美联储的利率政策如何影响通货膨胀?”,系统可能会检索到以下四篇相关文档:
融合阶段的目标是判断哪些文档最相关,并以最优方式呈现给 AI,以确保生成的回答基于事实。
最终,经过检索和融合后的信息将用于生成最终回答。与传统的聊天机器人不同,RAG 模型不仅依赖于预训练的知识,还能够实时引用外部文档。
示例:
用户询问 “当前股市的最新趋势是什么?”
“截至 2025 年 3 月,标普 500 指数因利率上升而表现出较高波动性。分析师预计市场将进一步波动,特别是在科技和能源板块。彭博社和 CNBC 的最新报告显示,AI 相关股票的收益表现强劲。”
如果没有 RAG,传统的 AI 可能会给出过时的信息,而 RAG 通过实时检索,确保回答的时效性和准确性。
上述 RAG 流程的四个主要步骤也可以通过数学方式进行研究和理解。接下来,我们将逐步解析 RAG 的数学基础,并用简单的语言解释每个公式。如果你对 RAG 的数学原理不感兴趣,可以跳过此部分,直接阅读其工作原理和应用。
当用户提供一个查询 qq 时,系统需要将其转换为机器可读的格式。而不是直接将文本作为普通单词处理,系统会将其编码为密集向量表示(dense vector representation),这种结构化的数值格式能够捕捉查询的语义信息。
数学上,该过程可以表示为:
其中:
作用:编码后的查询 q′q' 充当**“搜索键”**,用于在数据库中查找最相关的文档。
当查询被转换为向量后,系统会在大型知识库中搜索匹配的文档。其目标是找到与查询最相似的文档。
如何衡量相似度?
相似度通常通过**余弦相似度(cosine similarity)或点积相似度(dot product similarity)**来计算。检索到某个文档 dd 的概率可以表示为:
其中:
作用:该公式保证最相关的文档具有更高的检索概率,从而提高系统的检索准确性。
当系统检索到最相关的文档后,LLM(大型语言模型)需要基于查询和检索到的信息生成回答。
数学上,这个过程可以表示为:
其中:
作用:这一生成过程是逐步进行的,确保输出的回答既符合事实,又保持语法和语义上的连贯性。
为了确保系统生成最优的回答,模型会不断优化自身,使用最大似然估计(Maximum Likelihood Estimation, MLE) 进行训练。
其目标函数(损失函数)可以表示为:
其中:
作用:通过优化该目标函数,模型能够不断学习并调整权重,使其在未来生成更准确的回答。
DPR 是一种基于神经网络的检索方法,它利用深度学习模型理解单词背后的语义。不同于仅基于关键词匹配的传统方法(如 BM25),DPR 将查询和文档转换为数值表示(嵌入向量),然后计算相似度以检索最相关的文档。
DPR 采用两步检索流程:
DPR 采用**双编码器(bi-encoder)**架构,即两个独立的神经网络分别用于:
两者均将输入转换为高维向量(即密集嵌入)。
BM25 是一种基于统计的排名算法,它根据关键词的频率检索文档。BM25 属于**“词袋模型”(bag-of-words model),意味着它不考虑单词的语义**,仅关注它们在文档中的出现频率。
BM25 采用以下因素对文档进行排名:
BM25 计算公式如下:
其中:
虽然 DPR 很强大,但在数百万个文档中搜索相似向量的计算成本很高。FAISS(Facebook AI Similarity Search) 是一个高效的向量搜索库,可以大幅提高检索速度。
FAISS 采用三种关键优化策略:
比较所有 3 个:
DPR(密集检索) | |||
BM25(稀疏检索) | |||
FAISS(加速 DPR) |
RAG 通过结合检索推理(Retrieval-based Reasoning) 和 先进的语言建模(Advanced Language Modeling),正在彻底改变 AI 驱动的搜索与文本生成。它在需要实时、基于事实的、特定领域的知识检索的场景中尤其有价值,例如:
此外,多重检索(Multi-Retriever)方法进一步增强了 RAG 在金融问答(Financial QA)中的能力。例如,它可以整合结构化法规数据(如 IRS 税法、SEC 备案)*和*现实世界新闻、专家意见,确保提供精确且最新的答案**。
随着 AI 继续发展,RAG 模型将成为可信赖、准确的 AI 应用的关键组成部分。无论是回答复杂的金融问题、总结法律文本,还是生成医学报告,RAG 代表着 AI 在知识驱动领域的重大突破,使 AI 不仅流畅(fluent),更可靠(reliable)和知识丰富(knowledge-driven)。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-10-27
2024-09-04
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-04-04
2025-04-03
2025-04-02
2025-04-01
2025-04-01
2025-03-30
2025-03-28
2025-03-27