我要投稿

基于RAG一篇笔记

发布日期：2024-05-06 10:01:48 浏览次数： 1891 作者：nlp论文心得分享

题目：Enhancing LLM Factual Accuracy with RAG to Counter- Hallucinations: A Case Study on Domain-Specific Queries in Private Knowledge-Bases

git:https://github.com/anlp-team/LTI_Neural_Navigator

创新：

模型

论文整体思路

3 Dataset Creation

此模块主要讲了数据集的来源以及数据使用什么模型注释如何预处理评估数据集注释的可靠性数据的可靠性可以训练rag问答系统

3.1数据来源

使用Selenium和BeautifulSoup库构建了一个自定义的Web Crawler来抓取CMU网站。以两种格式存储 HTML和PDF 流程如下

3.2数据分割

主要讲了文本块大小以及为什么这么分割

3.3数据注释

在三个注释模型中选择了WizardLM。做为注释器以帮助生成QA对以及讲解了数据集训练和测试集的划分

3.3数据评估

计算Cohen的Kappa评分公式如下：

P0表示注释者之间的相对观察到的一致性，并且PE是偶然一致性的假设概率。使用该指标，κ评分为1表示完全一致，而评分为0表示除偶然外没有一致性。另一方面，负值表示注释者之间存在分歧。为了计算po，我们首先统计注释者在数据集的每个类别上达成一致的实例数量。然后，我们将其除以注释的总数。对于pe，我们根据每个类别的注释在注释者之间的分布，计算出预期的一致性。

κ评分为0.67，表明与数据集基本一致（83.33%）。

4 Question-Answering Pipeline

在第4节中，讨论了系统中模型的选择和微调，并详细介绍了RAG管道的设计，它包括两个主要组件：上下文检索器和生成模型。上下文检索器采用复杂的算法，根据用户的查询，从策展数据集中识别和检索最相关的信息片段。在检索之后，生成模型由LLaMA-2的尖端功能提供支持，利用所提供的上下文来生成连贯和准确的答案。这个两步过程确保系统的响应不仅是上下文感知的，而且还保持高度的事实完整性。

4.1Embedding Model

本文使用的预训练的嵌入模型来源以及选择该嵌入模型的原因

4.2Reranking Model

选择的重排序模型

本文构造的名为Bgereankd 提高查询结果相关性的模型框架 CrossEncoder的核心思想是将两个输入文本（例如两个句子、两段文本等）同时输入到模型中，让模型直接学习文本之间的相关性或相似性。相较于传统的分别处理两个文本的模型（如Siamese网络），CrossEncoder能够更好地捕捉全局语义信息，有助于更准确地判断两个文本的关联程度。

4.3Core Model

核心模型选择为LLaMA-2

LLaMA-2（Language Model for Matching Answers）是用于文本相关性任务的模型，特别是用于检索增强生成（Retrieval-Augmented Generation，RAG）任务。它是对原始LLaMA模型的改进和扩展，旨在提高生成文本的质量和相关性。总的来说，LLaMA-2是一种用于文本相关性任务的模型，通过结合检索和生成两个环节，并采用CrossEncoder架构，能够有效地提高生成答案的相关性和质量，在各种文本相关性任务中有着广泛的应用价值。