微信扫码
与创始人交个朋友
我要投稿
单位 | 清华大学、美国卡内基梅隆大学、东北大学
研究方向 | 检索增强生成
洞见
传统的RAG模型通过检索外部知识库中的信息,辅助语言模型生成更准确的回答。然而,这些模型往往采取被动的知识吸收方式,忽略了学习过程中主动构建知识的重要性。在这种背景下,ACTIVERAG通过主动学习机制,使LLMs能够更深入地理解和整合外部知识。ACTIVERAG的核心在于其知识构建机制和认知连接机制,这两个机制共同作用,不仅提升了模型对知识的深层次理解,还增强了模型的内在认知能力。
实现流程
ACTIVERAG的第一步是从知识库中检索与查询相关的文档或段落。这一步骤利用检索模型来定位和获取可能包含有用信息的外部数据。检索到的信息可能包含噪声和不相关的内容。为了提高信息的质量和相关性,ACTIVERAG通过知识构建机制(Knowledge Construction)来处理这些检索到的段落。知识构建涉及将检索到的信息与LLMs已有的知识库进行关联,以形成对外部知识的更深层次理解。在知识构建的基础上,ACTIVERAG进一步通过认知联结机制(Cognitive Nexus)将外部知识与LLMs的内在知识结构相融合。这一步骤首先生成一个初始的思维链(Chain-of-Thought, CoT)[2],这是模型对问题的初步理解和解答尝试。然后,利用知识构建阶段的成果来精细化和修正这个思维链,以确保生成的答案不仅基于检索到的信息,而且与模型的先验知识相一致。
知识构建机制
ACTIVERAG模型创建了不同的“代理”或角色,每个角色都专注于从检索到的文档中构建特定类型的知识。这些代理包括:
关联(Associate):此代理专注于将检索到的信息与模型已知的基础知识关联起来,以扩展和深化模型对问题的理解。这包括识别和整合对问题理解有帮助的基础和高级信息。
锚定(Anchoring):此代理帮助模型理解和吸收之前未知的新知识,为模型提供相关信息的背景和上下文,以更好地理解查询。
逻辑学家(Logician):该代理旨在提升模型的逻辑推理能力,通过从检索到的信息中提取有助于因果推理和逻辑推断的内容。
认知(Cognition):此代理关注于更新模型的知识库,解决与模型现有知识相矛盾的信息,以减少事实上的错误并减轻模型的幻觉问题。具体实现是通过一系列精心设计的步骤和提示(prompts),这些提示引导模型以特定的角色或视角来处理和分析检索到的信息。本质上是利用大模型进行信息的抽取实现知识的提炼和过滤。
认知的联结
LLMs提取的知识(基础信息、新知识、逻辑推理增强信息或纠正模型幻觉的信息)被用来精细化和修正初始CoT。在这一步骤中,模型使用不同的认知联结提示分别整合上述提取的不同种类的新知识,并生成修正后的思维链。它的作用是将通过知识构建机制获得的新知识与模型的内在认知结构相融合,以此来提升模型对于复杂问题的理解力和生成准确答案的能力。
初始思维链生成:在认知联结的第一步中,模型首先为给定的问题生成一个初始的思维链CoT。这个思维链代表了模型在没有额外信息辅助下的原始推理过程。
知识构建结果的应用:接下来,模型利用知识构建阶段得到的结果来调整和精细化这个初始的思维链。具体地,知识构建阶段抽取的知识随后被送入相应的预先设计好的整合模板(prompts)中,这些模板引导模型如何将新知识与初始的思维链(CoT)结合。例如,提示可能要求模型验证初始推理过程中的错误,并使用新知识来增强推理过程。具体如下:
通过以上步骤,模型可以自我校准模型的内在认知,确保新构建的知识与模型现有的知识库相协调。这包括解决知识上的矛盾和更新。模型将生成一个精细化的思维链。这个链更加精确地反映了问题的答案,因为它结合了模型的先验知识和检索到的信息。
生成最终答案:最终,模型利用这个精细化的思维链来生成对用户问题的最终答案。这个答案是基于模型对问题的深入理解和综合分析得出的。认知联结作为ACTIVERAG模型中的一个创新点,它通过主动整合和校准知识,使模型能够更好地理解和回答复杂的查询,从而在自然语言处理领域中实现了性能的显著提升。
实验
论文中使用了四个开放域问答数据集来评估ACTIVERAG模型的性能,这些数据集包括:
Natural Questions (NQ): 由Google提出,包含真实搜索查询及其对应的维基百科页面。
PopQA: 包含流行文化相关问题的问答数据集。
TriviaQA: 一个大规模的,远程监督的问答数据集,包含大量问题及其对应的证据段落。
WebQ: 从维基百科中提取的问题,需要模型从给定的段落中找到答案。
为了展示ACTIVERAG的性能,论文中将其与多个基线模型进行了比较,包括:
无RAG的LLMs: 没有使用检索增强的独立大型语言模型。
Vanilla RAG: 传统的检索增强生成模型。
Self-Refined RAG: 包含自我精炼步骤的RAG模型,如Self-Rerank和Self-Refine。
Chain-of-Note[3]: 使用笔记机制来提炼检索到的段落。
实验使用了ChatGPT-3.5模型作为基础语言模型。使用T5-ANCE模型从KILTWikipedia中检索相关文档,使用了准确率(Accuracy)作为主要的评估指标,通过将模型生成的答案与参考答案进行匹配来计算。
在所有模型中,ACTIVE RAG模型结合Associate知识构建方法,在NQ和TriviaQA上的前5和前10准确率以及WebQ中表现最佳。Vanilla RAG和Self-Refined RAG模型表现相对较差。ChatGPT-3.5模型在没有RAG的情况下,在NQ和TriviaQA上的准确率也相对较高,尤其是在前10准确率指标上。Chain-of-Note方法有一个显著的性能提升,尤其是在WebQ上,与Self-Rerank和Self-Refine方法相比。
ACTIVE RAG(Oracle Rerank) 方法在所有指标上都表现出了最高的性能,这可能是因为它代表了集成所有方法后的最高可能性表现。对于ACTIVE RAG,使用 Associate 方法取得了最佳的Top-5和Top-10准确率,尤其是在TriviaQA数据集上表现出了93.0%的Top-5准确率。CoT(Conversational Context Trees)模型的表现在多个设置下都比Vanilla RAG好。特别是,当与 Note 结合使用时,其在TriviaQA数据集上的Top-5准确率高达91.8%。
作者展示了ACTIVERAG的知识构建结果可以泛化到不同的LLM架构上,如LLaMA2-7B/13B,并显著提高这些模型的性能。
从表中数据可以看出:与没有使用RAG(检索增强生成器)的LLM相比,无论是vanilla RAG还是Chain-of-Note都一致表现出性能下降。这一趋势表明检索到的文段通常成为干扰因素,对模型性能产生不利影响,即使有精细的笔记。然而,知识构建产出对于LLaMA2-7B/13B在所有问答数据集上都取得了超过20%的显著改进,证明了其有效性。知识构建方法与Chain-of-Note方法有所不同,它通过将检索到的文段与之前获得的知识连接起来建立知识理解。这种方法体现了教师(ChatGPT-3.5)的思考过程,并作为一种认知路线图,指导学生(LLaMA2-7B/13B)从检索到的文段中学习知识。此外,通过计算查询条件下的困惑度(PPL)来评估各种知识构建机制的质量,从而提高了它们的成果。评估结果显示,LLM能够选择更合适的知识构建方法来获得精确的答案。
最后,作者进行了实验以展示基于Associate的知识构建方法的特征。评估结果图显示,Associate方法与链式笔记(chain-of-note)方法的相似性较小,表明在知识构建上与简单摘要的方法存在差异。Associate方法产生的结果与Anchoring更为接近,这表明这两种机制主要是从检索到的文段中提取知识。相比之下,Associate方法的结果与Cognition的结果有更显著的差异。显而易见,这种反事实的认知通常会导致不同的认知结果,而不是专注于与查询相关的内容。
Take Away
ACTIVERAG模型通过主动学习策略,有效地弥合了大型语言模型(LLMs)的先验知识与检索到的信息之间的差距。具体来说,该模型首先从外部知识库中检索与特定问题相关的信息。面对可能包含噪声的检索结果,模型不是被动接受,而是主动进行自我反思,评估每条信息的相关性和准确性。通过自我蒸馏技术,模型能够从这些信息中提取出关键知识点,剔除无关内容和误导性噪声。随后,ACTIVERAG模型积极构建知识,将这些检索到的关键知识点与模型已有的先验知识结合起来,形成对问题更全面和深入的理解。这一知识构建过程不是简单的信息叠加,而是通过认知网络机制进行校准和整合,确保新旧知识能够协同工作,相辅相成。最终,基于这种经过整合和校准的知识体系,ACTIVERAG模型能够生成更加准确和可靠的答案,从而在知识密集型任务中表现出色。这种主动学习的方法使LLMs在面对复杂问题时,能够更有效地利用外部信息,提高生成答案的质量。
[1] https://arxiv.org/pdf/2402.13547.pdf
[2] https://arxiv.org/pdf/2201.11903.pdf
[3] https://arxiv.org/pdf/2311.09210.pdf
作者团队 | Cool LLMs 兴趣小组
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-03-30
2024-05-28
2024-05-10
2024-04-26
2024-04-12
2024-04-25
2024-07-25
2024-05-06
2024-07-18
2025-01-22
2025-01-22
2025-01-22
2025-01-22
2025-01-21
2025-01-21
2025-01-20
2025-01-18