我要投稿

运行 Dashboard

发布日期：2024-06-21 07:01:29 浏览次数： 2255

作者：数翼

微信搜一搜，关注“数翼”

文章内容主要有：

• RAG 流程回顾，
• 语句窗口检索（SWR）的概念，
• SWR 详细实现，
• 如何优化和评估 SWR

基础RAG概念

回顾一下基础的 RAG 架构，这个架构下对于较小的内容块效果比较好。

刚刚提到，由于RAG对于较小块效果比较好，第一步还是将文件拆成比较小的块，当查询到相关的块之后，我们围绕之前的语句，进行上下文窗口的扩展，讲较小语句的上下文一起发给 LLM，这就是语句窗口检索。

为了理解语句窗口检索，我画了个架构图，

如果你只是为了了解一下概念，那么读到这里就可以了，后面是实现程序和评估演示。

下面演示如何使用和评估语句窗口检索。

读取文档

获取和解析文档，和之前一样的步骤：

import warnings
warnings.filterwarnings('ignore')

import utils
import os
import openai
openai.api_key = utils.get_openai_api_key()

from llama_index import SimpleDirectoryReader

documents = SimpleDirectoryReader(
    input_files=["./eBook-How-to-Build-a-Career-in-AI.pdf"]
).load_data()

合并文档

把文件合并成一个文档对象方便我们处理：

from llama_index import Document
document = Document(text="\n\n".join([doc.text for doc in documents]))

节点解析

创建一个支持 SentenceWindow 的 NodeParser 节点处理器（窗口大小我们默认为3）：

from llama_index.node_parser import SentenceWindowNodeParser

# create the sentence window node parser w/ default settings
node_parser = SentenceWindowNodeParser.from_defaults(
    window_size=3,
    window_metadata_key="window",
    original_text_metadata_key="original_text",
)

构建 Context

用标准方法ServiceContext.from_defaults构建Context，传入我们上一步创建的 node_parser。

from llama_index.llms import OpenAI

llm = OpenAI(model="gpt-3.5-turbo", temperature=0.1)

from llama_index import ServiceContext

sentence_context = ServiceContext.from_defaults(
    llm=llm,
    embed_model="local:BAAI/bge-small-en-v1.5",
    # embed_model="local:BAAI/bge-large-en-v1.5"
    node_parser=node_parser,
)

构建 Sentence Index

使用过 VectorStoreIndex 构建 Index，

from llama_index import VectorStoreIndex

sentence_index = VectorStoreIndex.from_documents(
    [document], service_context=sentence_context
)

持久化到磁盘，这里我们指定当前相对目录（后续可以从该目录恢复，就不用重复前面的流程了）。

sentence_index.storage_context.persist(persist_dir="./sentence_index")

构建 postprocessor

from llama_index.indices.postprocessor import MetadataReplacementPostProcessor

postproc = MetadataReplacementPostProcessor(
    target_metadata_key="window"
)

from llama_index.schema import NodeWithScore
from copy import deepcopy

scored_nodes = [NodeWithScore(node=x, score=1.0) for x in nodes]
nodes_old = [deepcopy(n) for n in nodes]

使用 PostProcess 处理原来的节点。

replaced_nodes = postproc.postprocess_nodes(scored_nodes)

重新排序

from llama_index.indices.postprocessor import SentenceTransformerRerank

rerank = SentenceTransformerRerank(
    top_n=2, model="BAAI/bge-reranker-base"
)

执行查询引擎

sentence_window_engine = sentence_index.as_query_engine(
    similarity_top_k=6, node_postprocessors=[postproc, rerank]
)

window_response = sentence_window_engine.query(
    "在人工智能领域建立职业生涯的关键是什么？"
)

最终回应：在人工智能领域建立职业生涯的关键包括学习基础技术技能、
参与项目、找到工作以及成为支持性社区的一部分。

评估程序

使用使用同样的方法进行评估，同样是构建问题列表，评估两步。

eval_questions = []
with open('generated_questions.text', 'r') as file:
    for line in file:
        # Remove newline character and convert to integer
        item = line.strip()
        eval_questions.append(item)
        
from trulens_eval import Tru

def run_evals(eval_questions, tru_recorder, query_engine):
    for question in eval_questions:
        with tru_recorder as recording:
            response = query_engine.query(question)

不同窗口大小比较

下面比较下不同参数下 SWR 的性能如何。

窗口大小 = 1

创建窗口大小为 1 的 index：

sentence_index_1 = build_sentence_window_index(
    documents,
    llm=OpenAI(model="gpt-3.5-turbo", temperature=0.1),
    embed_model="local:BAAI/bge-small-en-v1.5",
    sentence_window_size=1,
    save_dir="sentence_index_1",
)
sentence_window_engine_1 = get_sentence_window_query_engine(
    sentence_index_1
)
tru_recorder_1 = get_prebuilt_trulens_recorder(
    sentence_window_engine_1,
    app_id='sentence window engine 1'
)

窗口大小 = 3

创建窗口大小为 3 的 index：

sentence_index_3 = build_sentence_window_index(
    documents,
    llm=OpenAI(model="gpt-3.5-turbo", temperature=0.1),
    embed_model="local:BAAI/bge-small-en-v1.5",
    sentence_window_size=3,
    save_dir="sentence_index_3",
)
sentence_window_engine_3 = get_sentence_window_query_engine(
    sentence_index_3
)

tru_recorder_3 = get_prebuilt_trulens_recorder(
    sentence_window_engine_3,
    app_id='sentence window engine 3'
)