我要投稿

长短时记忆RAG来啦，仿照人脑结构，成本降低20倍，表现提高20%！

发布日期：2024-06-02 23:04:06 浏览次数： 2925

作者：夕小瑶科技说

微信搜一搜，关注“夕小瑶科技说”

自从GPT-4问世之后，大模型似乎变得愈发聪明，拥有了"百科全书"般的知识储备。但它们真的已经接近人类智慧了吗？

事实并非如此，大模型在知识整合和长期记忆方面仍存在明显短板，而这恰恰是人脑的强项。人类的大脑能持续不断地整合新知识，形成强大的长期记忆，为我们的思考和决策提供支持。那么大模型如何才能像人脑一样拥有高效的知识整合和长期记忆呢？

来自俄亥俄州立大学和斯坦福大学的一组科学家们给出了一个有趣的思路：让人工智能拥有一个类似人类海马体的"记忆大脑"。他们从神经科学的角度出发，模仿人脑海马体在长期记忆中的作用，设计出一个名为HippoRAG的模型，能够像人脑一样高效地整合和搜索知识。实验表明，这个"记忆大脑"能够在多跳问答等需要知识整合的任务上取得大幅提升。这或许指明了让大模型具备"类人"记忆能力的一个全新方向。

论文标题：HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models

论文链接：https://arxiv.org/pdf/2405.14831

近年来，人工智能大模型在多种任务上展现了令人瞩目的能力，似乎离"通用人工智能"的梦想越来越近。但在知识整合和长期记忆方面，大模型仍存在显著缺陷，难以媲美人脑的高效。

最近，来自俄亥俄州立大学和斯坦福大学的科学家们提出了一个有趣的思路：让大模型也拥有一个像人脑海马体一样的"记忆操作系统"。他们借鉴海马体在人脑记忆中的关键作用，设计了一个名为HippoRAG的新型检索增强模型。实验表明，装备了这一"类脑"记忆系统的大模型在多种需要知识整合的任务中展现出了惊人的性能提升。

HippoRAG的诞生，为大模型赋予"类脑"的知识整合和长期记忆能力开辟了一条全新的路径。这一突破性的工作有望帮助大模型进一步发挥潜能，向着更接近人类智能的方向迈进。

海马体"记忆术"

HippoRAG的设计灵感来自于人脑中的海马体。海马体是位于大脑内侧颞叶的一个重要结构，在学习和记忆过程中扮演着关键角色。科学家发现海马体似乎负责在新的记忆形成过程中对其进行"索引"，并将这些记忆的索引相互关联起来。这使得人脑能够高效地存储、整合和检索不同的知识，形成持久的长期记忆。

研究人员受此启发，设计了一个类似海马体的"记忆机制"。他们利用大语言模型扮演新皮层的角度，负责处理信息；用一个知识图谱来充当"记忆索引"，并引入了检索模型来连接语言模型和知识图谱，模拟内嗅皮层的功能。当模型接收到一个新的查询时，它先从查询中提取关键概念,然后在知识图谱上应用Personalized PageRank算法进行概念扩展和检索，模拟海马体的联想记忆能力。最后，模型根据节点的重要性对passage进行排序和检索，仿佛在进行"模式补全"。

下图形象地展示了HippoRAG的检索过程。它先从查询中提取关键概念如"Stanford"和"Alzheimer's"，然后利用检索器在知识图谱中找到对应的节点。接着借助Personalized PageRank算法探索图谱，找到相关性最高的节点如"Thomas Sudhof"，最终根据节点的重要程度对检索信息进行排序，成功检索到了最相关的内容。

研究人员还引入了"节点特异性"的概念，用节点在知识图谱中的独特性来帮助检索，这可以被看作是一种神经科学上合理的"逆文档频率"信号，让HippoRAG具有了权衡概念重要性的能力。

HippoRAG的性能检验

为了考察HippoRAG的知识整合能力，研究人员选择了三个具有挑战性的多跳问答数据集：MuSiQue、2WikiMultiHopQA和HotpotQA。这些数据集的特点是，回答问题需要整合多个支撑段落中的信息，对知识整合能力提出了较高要求。

下表展示了各个模型在三个数据集上的表现对比。可以看出：

在单步检索实验中，HippoRAG在MuSiQue和2WikiMultiHopQA上的表现大幅领先于现有的检索模型，F1值提升了3-20个百分点；
在HotpotQA上也取得了与目前最佳模型相当的成绩。

值得注意的事，在多步检索实验中，当HippoRAG与迭代式检索方法IRCoT结合时，带来的提升更加显著，在三个数据集上的F1值均有3-19个百分点的提高。

更让人惊喜的是，HippoRAG在单步检索中取得的效果已经接近或超过了IRCoT的多步迭代检索，而计算开销却大为降低。如下图所示，HippoRAG在线检索时调用GPT-3.5 Turbo的API成本只有IRCoT的十分之一到三十分之一，检索速度也提高了6-13倍。这意味着HippoRAG能够以更低的计算代价，有效应对复杂的知识整合挑战。

综合实验结果表明，HippoRAG所采用的类脑记忆机制，在赋予大模型知识整合和长期记忆能力方面取得了显著成效。它不仅在已有的多跳问答任务上达到了新的性能高度，还展现出了处理更复杂问题的潜力。

那么，是什么赋予了HippoRAG如此强大的能力呢？为深入理解其工作机制，研究者进行了一系列的消融实验和分析。如下图所示，他们考察了不同OpenIE工具、图遍历算法以及关键设计组件对HippoRAG性能的影响。

实验发现，将GPT-3.5替换为其他OpenIE工具如REBEL，会导致HippoRAG的性能显著下降。这揭示了GPT-3.5在灵活构建知识图谱方面的独特优势。而当用开源的语言模型Llama-3替代GPT-3.5时，尤其是其8B版本，HippoRAG的表现与GPT-3.5十分接近。这个发现表明我们可以用更经济的开源模型来进行HippoRAG的训练，以期进一步拓展其应用场景。

在图遍历算法的选择上，个性化PageRank展现出了明显的优势。当使用其他简单的基于查询节点的遍历方法时，HippoRAG的性能会大幅下降。这证实了个性化PageRank在捕捉查询与知识图谱间复杂关联方面的独特作用。

此外，消融实验还证实了节点特异性和同义词连接这两个关键设计的价值。去除节点特异性会导致MuSiQue和HotpotQA上的性能下降，而去除同义词连接则会显著影响HippoRAG在2WikiMultiHopQA上的表现。这表明节点特异性有助于HippoRAG权衡不同概念的重要性，而同义词连接则促进了实体对齐和知识整合。