微信扫码
与创始人交个朋友
我要投稿
通过本文你将了解到,什么是 RAG(Retrieval-Augmented Generation),为什么需要 RAG,RAG 的整个流程,以及通过一个简单的示例串起了整个流程。
RAG 全称 Retrieval-Augmented Generation,翻译成中文是检索增强生成。检索指的是检索外部知识库,增强生成指的是将检索到的知识送给大语言模型以此来优化大模型的生成结果,使得大模型在生成更精确、更贴合上下文答案的同时,也能有效减少产生误导性信息的可能。打一个形象的比喻就是,把大语言模型看作一个考生,现在在参加一场考试。如果没有 RAG,只有大语言模型自己在答题,这就相当于是在闭卷考试;而结合了 RAG 的大语言模型相当于允许带小抄进考场,是在开卷考试。
Photo by Nguyen Dang Hoang Nhu on Unsplash
之所以需要 RAG,是因为大语言模型本身存在一些局限性。
模型的训练是基于截至某一时间点之前的数据集完成的。这意味着在该时间点之后发生的任何事件、新发现、新趋势或数据更新都不会反映在模型的知识库中。例如,我的训练数据在 2023 年底截止,之后发生的事情我都无法了解。另外,大型模型的训练涉及巨大的计算资源和时间。这导致频繁更新模型以包括最新信息是不现实的,尤其是在资源有限的情况下。
虽然大模型的训练数据集非常庞大,但仍可能无法涵盖所有领域的知识或特定领域的深度信息。例如,某些专业的医学、法律或技术问题可能只在特定的文献中被详细讨论,而这些文献可能未被包括在模型的训练数据中。另外,对于一些私有数据集,也是没有被包含在训练数据中的。当我们问的问题的答案没有包含在大模型的训练数据集中时,这时候大模型在回答问题时便会出现幻觉,答案也就缺乏可信度。
由于以上的一些局限性,大模型可能会生成虚假信息。为了解决这个问题,需要给大模型外挂一个知识库,这样大模型在回答问题时便可以参考外挂知识库中的知识,也就是 RAG 要做的事情。
RAG 的中文名称是检索增强生成,从字面意思来理解,包含三个检索、增强和生成三个过程。
在下面这个简单示例中,我们使用 Elasticsearch
作为存储向量的数据库。使用讯飞的星火大模型来进行问题的回答。具体代码如下:连接本地的 Elasticsearch 数据库
import os
from elasticsearch import Elasticsearch
from dotenv import load_dotenv
load_dotenv()
client = Elasticsearch(
"https://localhost:9200",
ssl_assert_fingerprint=os.environ["CERT_FINGERPRINT"],
basic_auth=("elastic", os.environ["ELASTIC_PASSWORD"])
)
加载向量模型
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("./stella-base-zh-v3-1792d")
创建索引
client.indices.create(index = "rag_tutorial_vector_index",
mappings = {
'properties': {
'embedding': {
'type': 'dense_vector'
}
}
})
读取本地的文本文件并进行切分,然后向索引中添加数据
from langchain.text_splitter import RecursiveCharacterTextSplitter
with open("patent.txt", "r") as fp:
text = fp.read()
text_splitter = RecursiveCharacterTextSplitter(chunk_size = 200, chunk_overlap=50)
chunks = text_splitter.create_documents([text])
doc = {}
for doc_id, chunk in enumerate(chunks):
chunk_embedding = model.encode(chunk.page_content, normalize_embeddings=True)
doc['text'] = chunk.page_content
client.index(
index = "rag_tutorial_vector_index",
id = doc_id,
document = {
**doc,
"embedding": chunk_embedding
}
)
使用查询从向量数据库中检索数据
query = "本次专利法修改对于更好地鼓励医药产业创新,有哪些新规定?"
query_embedding = model.encode(query, normalize_embeddings=True)
resp_vector = client.search(
knn = {
'field': 'embedding',
'query_vector': query_embedding,
'num_candidates': 10,
'k': 3
},
min_score = 0.8,
size = 3,
index = 'rag_tutorial_vector_index'
)
将检索的结果进行汇总
retrieval_content = ""
for hit in resp_vector['hits']['hits']:
retrieval_content += hit['_source']['text']
将检索到的结果送到星火大模型,并输出结果
import os
from sparkai.llm.llm import ChatSparkLLM, ChunkPrintHandler
from sparkai.core.messages import ChatMessage
from dotenv import load_dotenv
load_dotenv()
if __name__ == '__main__':
spark = ChatSparkLLM(
spark_api_url=os.environ["SPARKAI_URL"],
spark_app_id=os.environ["SPARKAI_APP_ID"],
spark_api_key=os.environ["SPARKAI_API_KEY"],
spark_api_secret=os.environ["SPARKAI_API_SECRET"],
spark_llm_domain=os.environ["SPARKAI_DOMAIN"],
streaming=False,
)
prompt = f"""
你是一个善于回答问题的助手。请使用以下提供的检索内容和自身知识来回答问题。如果你不知道答案,请直接说不知道,不要杜撰答案。请用三句话以内回答,保持简洁。
问题:{query}
检索内容:{retrieval_content}
"""
messages = [ChatMessage(
role = "user",
content = prompt
)]
handler = ChunkPrintHandler()
a = spark.generate([messages], callbacks=[handler])
print(a.generations[0][0].text)
本文从大模型的局限性切入,探讨了检索增强生成架构的核心机制及其带来的好处。RAG 通过结合检索和生成能力,能从外部知识库搜索相关信息,生成更准确的回应,有效克服了大模型在知识更新上的短板。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19