微信扫码
与创始人交个朋友
我要投稿
尽管大型语言模型有能力生成有意义且语法正确的文本,但它们面临一个比较严重的问题:幻觉。
在大模型中,幻觉指的是它们倾向于自信地生成错误答案,制造出看似令人信服的虚假信息。这个问题自大模型问世以来就普遍存在,并经常导致不准确和事实错误的输出。
为了解决幻觉问题,事实检查至关重要。检查的方法包括三种方法:
在这种情况下,我们将利用RAG(检索增强生成)来缓解幻觉。
RAG = 密集向量检索(R)+上下文学习(AG)
检索:为您的文档中提出的问题查找参考资料。
增强:将参考资料添加到您的提示中。
生成:改进对所提出的问题的回答。
在RAG中,我们通过将文本文档或文档片段的集合编码称为向量嵌入的数值表示来处理它们。每个向量嵌入对应于一个单独的文档片段,并存储在一个称为向量存储的数据库中。
负责将这些片段编码为嵌入的模型称为编码模型或双编码器。这些模型在广泛的数据集上进行了训练,使它们能够为文档片段创建强大的表示形式,即单个向量嵌入。
为了避免幻觉,RAG利用了与LLMs的推理能力分开保存的事实知识源。这些知识是外部存储的,可以轻松访问和更新。
有两种类型的知识源:
优化工作流程总结了基于以下两个因素可以使用的方法:
内容优化:模型需要知道什么。LLM优化:模型需要如何行动。
? 加载语言数据
� 处理语言数据
? 嵌入语言数据
? 将向量加载到数据库中
RAG涉及的阶段包括:
数据加载:这涉及从各种来源(如文本文件、PDF、网站、数据库或API)检索数据,并将其集成到您的管道中。Llama Hub提供了各种连接器来实现此目的。
索引:这个阶段侧重于为数据查询创建结构化格式。对于LLMs,索引通常涉及生成向量嵌入,这是数据含义的数值表示,以及其他元数据策略,以便促进准确和上下文相关的数据检索。
存储:在索引之后,通常的做法是存储索引和相关元数据,以避免将来需要重复索引。
查询:有多种方法可以利用LLMs和Llama-Index数据结构进行查询,包括子查询、多步查询和混合策略,具体取决于所选择的索引策略。
评估:这一步对于评估管道的有效性以比较替代策略或在实施更改时至关重要。评估提供了关于查询响应的准确性、保真度和速度的客观指标。
我们的 RAG 堆栈是使用Llama-Index、Qdrant和Llama 3构建的。
Llama-Index作为一个旨在为带有上下文丰富的LLM应用程序开发的框架。上下文增强涉及将LLMs与您的私有或领域特定数据结合使用。
该框架的一些流行应用包括:
Llama-Index提供了一套全面的工具,以促进这些应用程序的开发,从初始原型到生产就绪的解决方案。这些工具使数据摄取和处理成为可能,同时实现了与基于LLM的提示结合的复杂查询工作流的实施。
在这里,我们使用了 llama-index >= v0.10。
每个 LlamaIndex 用户都熟悉ServiceContext,它逐渐变得过时且繁琐,用于管理LLMs、嵌入、块大小、回调以及其他功能。因此,我们完全将其弃用;现在您可以直接指定参数或设置默认值。
重新设计的文件结构:
LlamaHub 将成为所有集成的中央枢纽。
Meta 的 Llama 3 是Llama系列的最新版本,可以通过Hugging Face访问。
Llama 3 有两种尺寸可供选择:8B适用于在消费级GPU上进行精简部署和开发,70B适用于广泛的AI应用。每种尺寸变体都提供基础版本和指令调整版本。
Qdrant是一个向量相似度搜索引擎,通过易于使用的API提供了一个生产就绪的服务。它专门用于存储、搜索和管理点(向量)以及附加负载信息。
它经过优化,可以高效地存储和查询高维向量。像 Qdrant 这样的向量数据库利用了专门的数据结构和索引技术。
这些优化使得快速相似度和语义搜索成为可能,允许用户根据指定的距离度量找到与给定查询向量最接近的向量。Qdrant支持的常用距离度量包括欧几里得距离、余弦相似度和点积。
安装所需库
%%writefile requirements.txt
llama-index
llama-index-llms-huggingface
llama-index-embeddings-fastembed
fastembed
Unstructured[md]
qdrant
llama-index-vector-stores-qdrant
einops
accelerate
sentence-transformers
#
!pip install -r requirements.txt
accelerate==0.29.3
einops==0.7.0
sentence-transformers==2.7.0
transformers==4.39.3
qdrant-client==1.9.0
llama-index==0.10.32
llama-index-agent-openai==0.2.3
llama-index-cli==0.1.12
llama-index-core==0.10.32
llama-index-embeddings-fastembed==0.1.4
llama-index-legacy==0.9.48
llama-index-llms-huggingface==0.1.4
llama-index-vector-stores-qdrant==0.2.8
下载数据集
!mkdir Data
!wget "https://arxiv.org/pdf/1810.04805.pdf" -O Data/arxiv.pdf
加载文档
from llama_index.core import SimpleDirectoryReader
documents = SimpleDirectoryReader("/content/Data").load_data()
实例化嵌入模型
from llama_index.embeddings.fastembed import FastEmbedEmbedding
from llama_index.core import Settings
embed_model = FastEmbedEmbedding(model_name="BAAI/bge-small-en-v1.5")
Settings.embed_model = embed_model
Settings.chunk_size = 512
定义系统提示
from llama_index.core import PromptTemplate
system_prompt = "You are a Q&A assistant. Your goal is to answer questions as accurately as possible based on the instructions and context provided."
# This will wrap the default prompts that are internal to llama-index
query_wrapper_prompt = PromptTemplate("{query_str}")
实例化LLM
由于我们使用Llama 3作为LLM,我们需要执行以下操作:
from huggingface_hub import notebook_login
notebook_login()
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from llama_index.llms.huggingface import HuggingFaceLLM
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B-Instruct")
stopping_ids = [
tokenizer.eos_token_id,
tokenizer.convert_tokens_to_ids(""),
]
llm = HuggingFaceLLM(
context_window=8192,
max_new_tokens=256,
generate_kwargs={"temperature": 0.7, "do_sample": False},
system_prompt=system_prompt,
query_wrapper_prompt=query_wrapper_prompt,
tokenizer_name="meta-llama/Meta-Llama-3-8B-Instruct",
model_name="meta-llama/Meta-Llama-3-8B-Instruct",
device_map="auto",
stopping_ids=stopping_ids,
tokenizer_kwargs={"max_length": 4096},
# uncomment this if using CUDA to reduce memory usage
# model_kwargs={"torch_dtype": torch.float16}
)
Settings.llm = llm
Settings.chunk_size = 512
实例化向量存储并加载向量嵌入
from IPython.display import Markdown, display
from llama_index.core import VectorStoreIndex
from llama_index.core import StorageContext
from llama_index.vector_stores.qdrant import QdrantVectorStore
client = qdrant_client.QdrantClient(
# you can use :memory: mode for fast and light-weight experiments,
# it does not require to have Qdrant deployed anywhere
# but requires qdrant-client >= 1.1.1
location=":memory:"
# otherwise set Qdrant instance address with:
# url="http://<host>:<port>"
# otherwise set Qdrant instance with host and port:
# host="localhost",
# port=6333
# set API KEY for Qdrant Cloud
# api_key=<YOUR API KEY>
)
vector_store = QdrantVectorStore(client=client, collection_name="test")
storage_context = StorageContext.from_defaults(vector_store=vector_store)
index = VectorStoreIndex.from_documents(documents, storage_context=storage_context)
实例化重排序模块
检索模型根据查询的嵌入相似性检索前k个文档。埌用嵌入进行检索有许多好处:
然而,尽管具有这些优点,基于嵌入的检索有时可能不太准确,并返回与查询无关的上下文。这反过来降低了RAG系统的整体质量,而不论LLM的质量如何。
在这种方法中,我们实施了一个两阶段检索过程。
第一阶段采用了基于嵌入的检索,具有较高的top-k值,以优先考虑召回率,即使以较低的精度为代价。
随后,第二阶段采用了略微更具计算密集性的过程,强调精度而不是召回率。该阶段旨在“重新排列”最初检索到的候选项,增强最终结果的质量。
实例化查询引擎
import time
query_engine = index.as_query_engine(similarity_top_k=10, node_postprocessors=[rerank])
提问问题1
now = time.time()
response = query_engine.query("What is instruction finetuning?")
print(f"Response Generated: {response}")
print(f"Elapsed: {round(time.time() - now, 2)}s")
提问问题2
now = time.time()
response = query_engine.query("Describe the Feature-based Approach with BERT??")
print(f"Response Generated: {response}")
print(f"Elapsed: {round(time.time() - now, 2)}s")
提问问题3
now = time.time()
response = query_engine.query("What is SQuADv2.0?")
print(f"Response Generated: {response}")
print(f"Elapsed: {round(time.time() - now, 2)}s")
在这里,我们开发了一个基于私有数据运行的高级RAG问答系统。
我们将 LlamaIndex 重新排列概念纳入其中,以优先考虑从检索器检索到的上下文中最相关的上下文。这种方法确保了生成响应的事实准确性。
(完)
AI算法交流群(知识星球)来了,这是一个面向全体学生和机器学习/算法工程师/研究员的技术沟通和求职交流的平台。
在这里你可以了解最前沿AI技术资讯、Paper、大模型(LLM),算法竞赛、实战项目、获取AI算法的校招/社招准备攻略、面试题库、面试经验分享、Offer选择、内推机会、学习路线、求职答疑和海量学习资料等内容。
同时,你也可以与来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~
AI算法交流群方向涉及搜广推、深度学习,机器学习,计算机视觉,知识图谱,自然语言处理,大数据,自动驾驶,机器人,大模型(含ChatGPT)等多个方向。
我们会不定期开展知识星球现金立减优惠活动,加入星球前可以添加我微信:mlc2060,咨询活动详情。iOS 用户直接添加我微信进星球(星球币支付不支持)
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19