微信扫码
与创始人交个朋友
我要投稿
导言
对于GenAI,为了得到好的结果, 就需要将数据加工为信息,再将信息加工为有关系的知识,但是:知识如果没有推理, 就不能产生价值, 本文介绍如何在知识的基础上,使用大模型的自我验证和归因推理,来提升大模型结果的准确性。
通过阅读本文,你能够了解:
如何构建知识,以及使用大模型的自我验证和归因推理,来提升大模型结果的准确性
下载原始论文
关注公众号,复制"大模型推理"并后台发送,获取 原始论文
模型的可靠性和可追溯性
大型语言模型(LLMs)表现出了非凡的能力,但存在幻觉、缺乏领域适应性和缺乏持续学习等问题。
当它们需要处理知识密集型任务时,这些问题更加突出。这些问题的解决方案之一(或至少部分解决方案)是在LLM的上下文中提供相关信息(插入提示)。
这个系统通常是检索增强生成(RAG)。已经证明这个系统能够减少幻觉并改善响应。
AI幻觉:记忆是否是答案?
RAG已死 VS 长命RAG
然而,可靠性和可追溯性仍然存在局限性。事实上,上下文幻觉仍然可能出现,有时找不到正确的上下文。
如果上下文噪音较多,LLM的生成可能会受到影响。
事实上,无关信息的存在可能会混淆LLM及其提取生成所需的相关信息的能力。
其次,LLMs在生成过程中不包括使用了哪些来源,这使得验证使用了哪些来源变得更加复杂。
在预训练阶段,LLM专注于获取知识。
毕竟,模型是以自回归的方式进行训练,目的是预测序列中的下一个词。因此,LLM并不是专门为推理而训练的,但这在训练过程中会出现(其实我们可以称之为训练的副作用和上下文学习)。
尽管我们没有为推理而训练它,但当我们使用RAG时,我们对其解释上下文的能力以及利用这些信息进行响应很感兴趣(因此我们对预训练期间获得的知识不太感兴趣)。
然后,我们可以考虑如何调整模型的能力,以进行关于找到的上下文的推理,并学习如何提取信息。在某种意义上,进行额外的后训练步骤,以便专注于我们系统中感兴趣的能力。
如何使模型能够推理上下文?
用自我推理改进检索增强语言模型
细节也可以参见:Self-RAG: 自校验,自检索高级RAG 实施和实际应用介绍
简而言之,这个过程包括三个步骤:
关联感知过程(RAP),在这个过程中,模型被指示评估文档与应用程序的相关性。
证据感知选择过程(EAP),在这个过程中,模型选择并引用相关文档。
轨迹分析过程(TAP),在这个过程中,模型基于前两个步骤发生的事情生成简明的分析,然后产生答案。
作者从具有LLM和检索器的经典RAG模型开始。
最初的直觉是,一个人有能力判断一份文档是否与问题相关
因此,他们决定指示LLM判断找到的文档与用户查询的相关性。
模型被指示指定为什么它认为这些文档与查询相关。这一步的输出应该包括它是否相关以及为什么它相关。
同时,如果检索器找不到相关文档,LLM应该使用其参数化记忆(即训练期间获得的知识)来回答查询,当然在很多场景, 找不到相关文档,也可以直接返回根据当前知识无法回答该问题。
为了回答问题,人类识别关键句子(也许用标记器标记它们),然后用它们来回答。
在写文章或撰写论文时,标明使用了哪些文档是一个好的做法。LLM在这个过程中会遇到困难。
因此,作者强迫LLM识别支持问题答案的句子(作者称之为证据)。
然后,作者指示模型选择对答案重要的句子,并提供为什么这些句子重要。
这个阶段的预期输出是一个包含应该引用的句子以及为什么它们重要的列表。
相当于一方面让模型来判断相关文档, 同时还需要让模型给出为什么需要该文档,以此来增加该内容的置信度。
在最后一步,LLM从前面的步骤中受益,并最终生成响应。模型分析了这个过程中进行的推理,然后产生了分析和响应。最终的输出是分析和响应。
显然,在这一点上,我们需要数据,作者生成了10,000个高质量的例子。这对于推理训练尤为重要。
然后,他们建立了一个包含自我推理轨迹的语料库(这些轨迹是在每个步骤产生的各种分析)。给定一个问题q和一个答案y,模型通过y、q和轨迹进行训练。
为了验证他们的方法是否有效,他们选择了两个短问题回答(QA)数据集和一个长QA数据集。
使用LLaMA2–7B、LLaMA2–13B和它们的指令调整版本作为模型。
之后,他们还使用其他提示工程方法作为基线,以查看他们的方法是否产生更好的结果。
在表中,我们可以看到:
结果表明,使用RAG显著提高了性能,相对于仅由LLM组成的系统。提示工程改进了这个基线,他们的方法给出了更好的结果。
对于长QA,该方法产生了非常好的结果,甚至在召回率上优于GPT-4(这是一件大事,因为这些模型相比之下非常小)。
进行消融研究,作者指出:
去除第一步会导致短形式QA的整体性能下降。这表明检查文档与查询的相关性有助于性能。特别是在事实验证数据集中,过滤掉无关文档非常重要。
去除第二步会带来显著的性能下降,表明识别关键判断对准确性很重要。
第三步对所有测试的数据集都是至关重要的,对性能产生了显著影响。
由于无关信息的存在会影响检索,作者测试了他们的噪声方法的稳健性。他们在两种情况下测试了他们的方法:
在检索后对文档进行随机洗牌。
用与数据集中不同问题相关的文档替换检索到的文档的一半。
该模型比其他噪声方法更稳健。特别是第一种情况对他们的方法影响很小。第二种情况更具挑战性,性能有所下降,但影响并不太大。
最后,彻底调查检验了模型是否真的支持引用。他们选择了人类评估员来检查模型是否在引用文档。他们询问人类评审员提交的文档是否支持答案中的句子。结果显示,该系统在呈现引用方面是有效的,并且与自动评估具有很好的相关性。
RAGs可以有效增强LLMs处理知识密集型任务的性能。尽管它们有效,但对于它们的可靠性和可追溯性仍然存在显著关注。为了解决这些限制,我们提出了一个新颖的SELFREASONING框架,通过使用LLM自身生成的推理轨迹来改善RALMs的性能。- 来源
所提出的方法很有趣,因为它既改善了系统响应的能力,又跟踪了LLM为什么以这种方式做出响应。其背后的想法是改善模型利用上下文和提取相关信息的能力。因此,作者使用特定的训练来使模型改善其能力。
这种方法很有趣,因为它是基于有效使用推理。它似乎很有前途,但尚未经过对需要多跳推理、代码生成或算术推理的更复杂问题的测试。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-04-11
2024-08-21
2024-07-09
2024-08-13
2024-07-18
2024-10-25
2024-07-01
2024-06-17