我要投稿

通过句子切分实现高精度的检索问答

发布日期：2024-05-06 12:18:01 浏览次数： 1904 作者：PyTorch研习社

《Lost in the Middle: How Language Models Use Long Contexts》一文揭示了在多文档问答和键值检索两个任务中，如果相关的信息出现在输入上下文的开头或结尾时，性能通常最高，而当模型必须在长上下文中间访问相关信息时，即使对于明确的长上下文模型，性能也会显著下降。

https://arxiv.org/abs/2307.03172

LlamaIndex 的 SentenceWindowNodeParser 将 Document 拆分为单独的句子。生成的每个 Node 中只有一条句子，Node 的元数据还包含这个句子周围的几条句子，这称为窗口（Window）。

这对于生成具有非常特定范围的嵌入最有用。然后，结合 MetadataReplacementNodePostProcessor，我们可以在将检索到的 Node 发送到 LLM 之前将该 Node 中的句子替换为其周围的上下文。

LlamaIndex 默认使用的 NLTK 库没有一个很好的拆分中文文档为句子的方法，所以我在网上找到了一个：

在设置好所使用的 LLM 和嵌入模型之后，我们设置窗口大小为3：

接下来加载数据集并建立索引：

然后开始提问：

回复如下：

根据提供的信息,中国在2011年11月3日凌晨掌握了载人航天的三项基本技术,即天地往返、出舱活动和交会对接。具体来说,神舟八号与天宫一号成功实现了中国首次空间交会与对接,标志着中国已经掌握了这三项载人航天的关键技术。

原文中内容如下：

答案是对的！

最后我们看一下窗口和原始句子：

window: 11月3日凌晨，神舟八号与天宫一号以自动模式成功实现中国首次空间交会与对接。至此，载人航天的三项基本技术（天地往返、出舱活动、交会对接）均已被中国掌握。2012年6月16日，神舟九号飞船搭载航天员景海鹏、刘旺和刘洋发射升空后与天宫一号对接，三名航天员进入天宫一号，随后进行了约十天的短期驻留并完成了首次手控交会对接试验，其中刘洋凭借这次任务成为中国首位进入太空的女航天员。------------------original text: 至此，载人航天的三项基本技术（天地往返、出舱活动、交会对接）均已被中国掌握。

源码：

https://github.com/realyinchen/LlamaIndex/blob/main/Document_Node/MetadataReplacement%2BNodeSentenceWindow.ipynb