我要投稿

RAG 系列之一：RAG 简介

发布日期：2024-05-19 05:39:48 浏览次数： 3149

作者：AI自习室

微信搜一搜，关注“AI自习室”

通过本文你将了解到，什么是 RAG（Retrieval-Augmented Generation），为什么需要 RAG，RAG 的整个流程，以及通过一个简单的示例串起了整个流程。

什么是 RAG？

RAG 全称 Retrieval-Augmented Generation，翻译成中文是检索增强生成。检索指的是检索外部知识库，增强生成指的是将检索到的知识送给大语言模型以此来优化大模型的生成结果，使得大模型在生成更精确、更贴合上下文答案的同时，也能有效减少产生误导性信息的可能。打一个形象的比喻就是，把大语言模型看作一个考生，现在在参加一场考试。如果没有 RAG，只有大语言模型自己在答题，这就相当于是在闭卷考试；而结合了 RAG 的大语言模型相当于允许带小抄进考场，是在开卷考试。

Photo by Nguyen Dang Hoang Nhu on Unsplash

为什么需要 RAG？

之所以需要 RAG，是因为大语言模型本身存在一些局限性。

1.时效性

模型的训练是基于截至某一时间点之前的数据集完成的。这意味着在该时间点之后发生的任何事件、新发现、新趋势或数据更新都不会反映在模型的知识库中。例如，我的训练数据在 2023 年底截止，之后发生的事情我都无法了解。另外，大型模型的训练涉及巨大的计算资源和时间。这导致频繁更新模型以包括最新信息是不现实的，尤其是在资源有限的情况下。

2.覆盖性

虽然大模型的训练数据集非常庞大，但仍可能无法涵盖所有领域的知识或特定领域的深度信息。例如，某些专业的医学、法律或技术问题可能只在特定的文献中被详细讨论，而这些文献可能未被包括在模型的训练数据中。另外，对于一些私有数据集，也是没有被包含在训练数据中的。当我们问的问题的答案没有包含在大模型的训练数据集中时，这时候大模型在回答问题时便会出现幻觉，答案也就缺乏可信度。

由于以上的一些局限性，大模型可能会生成虚假信息。为了解决这个问题，需要给大模型外挂一个知识库，这样大模型在回答问题时便可以参考外挂知识库中的知识，也就是 RAG 要做的事情。

RAG 的流程

RAG 的中文名称是检索增强生成，从字面意思来理解，包含三个检索、增强和生成三个过程。

检索：根据用户的查询内容，从外挂知识库获取相关信息。具体来说，就是将用户的查询通过嵌入模型转换成向量，以便与向量数据库中存储的知识相关的向量进行比对。通过相似性搜索，从向量数据库中找出最匹配的前 K 个数据。
增强：将用户的查询内容和检索到的相关知识一起嵌入到一个预设的提示词模板中。
生成：将经过检索增强的提示词内容输入到大语言模型（LLM）中，以此生成所需的输出。流程图如下所示：

简单示例

在下面这个简单示例中，我们使用 Elasticsearch 作为存储向量的数据库。使用讯飞的星火大模型来进行问题的回答。具体代码如下：连接本地的 Elasticsearch 数据库

import os
from elasticsearch import Elasticsearch
from dotenv import load_dotenv


load_dotenv()

client = Elasticsearch(
    "https://localhost:9200",
    ssl_assert_fingerprint=os.environ["CERT_FINGERPRINT"],
    basic_auth=("elastic", os.environ["ELASTIC_PASSWORD"])
)

加载向量模型

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("./stella-base-zh-v3-1792d")

创建索引

client.indices.create(index = "rag_tutorial_vector_index",
                      mappings = {
                          'properties': {
                              'embedding': {
                                  'type': 'dense_vector'
                              }
                          }
                      })

读取本地的文本文件并进行切分，然后向索引中添加数据

from langchain.text_splitter import RecursiveCharacterTextSplitter

with open("patent.txt", "r") as fp:
    text = fp.read()
    
    text_splitter = RecursiveCharacterTextSplitter(chunk_size = 200, chunk_overlap=50)
    chunks = text_splitter.create_documents([text])
    doc = {}
    
    for doc_id, chunk in enumerate(chunks):
        chunk_embedding = model.encode(chunk.page_content, normalize_embeddings=True)
        doc['text'] = chunk.page_content
        client.index(
            index = "rag_tutorial_vector_index",
            id = doc_id,
            document = {
                **doc,
                "embedding": chunk_embedding
            }
        )

使用查询从向量数据库中检索数据

query = "本次专利法修改对于更好地鼓励医药产业创新，有哪些新规定？"
query_embedding = model.encode(query, normalize_embeddings=True)

resp_vector = client.search(
    knn = {
        'field': 'embedding',
        'query_vector': query_embedding,
        'num_candidates': 10,
        'k': 3
    },
    min_score = 0.8,
    size = 3,
    index = 'rag_tutorial_vector_index'
)

将检索的结果进行汇总

retrieval_content = ""
for hit in resp_vector['hits']['hits']:
    retrieval_content += hit['_source']['text']

将检索到的结果送到星火大模型，并输出结果

import os
from sparkai.llm.llm import ChatSparkLLM, ChunkPrintHandler
from sparkai.core.messages import ChatMessage
from dotenv import load_dotenv


load_dotenv()

if __name__ == '__main__':
    spark = ChatSparkLLM(
        spark_api_url=os.environ["SPARKAI_URL"],
        spark_app_id=os.environ["SPARKAI_APP_ID"],
        spark_api_key=os.environ["SPARKAI_API_KEY"],
        spark_api_secret=os.environ["SPARKAI_API_SECRET"],
        spark_llm_domain=os.environ["SPARKAI_DOMAIN"],
        streaming=False,
    )
    
    prompt = f"""
              你是一个善于回答问题的助手。请使用以下提供的检索内容和自身知识来回答问题。如果你不知道答案，请直接说不知道，不要杜撰答案。请用三句话以内回答，保持简洁。

              问题：{query}

              检索内容：{retrieval_content}
              """
    
    messages = [ChatMessage(
        role = "user",
        content = prompt
    )]
    handler = ChunkPrintHandler()
    a = spark.generate([messages], callbacks=[handler])
    print(a.generations[0][0].text)