AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


【RAG论文】通过HyDE提升检索效果
发布日期:2024-06-28 05:42:49 浏览次数: 2499 来源:ChallengeHub


paper:https://arxiv.org/pdf/2212.10496

code:https://github.com/texttron/hyde

这篇文章主要做zero-shot场景下的稠密检索,通过借助LLM的力量不需要Relevance Labels,开箱即用。作者提出Hypothetical Document Embeddings (HyDE)方法,即“假设”文档嵌入。具体的做法是通过GPT生成虚构的文档,并使用无监督检索器对其进行编码,并在其嵌入空间中进行搜索,从而不需要任何人工标注数据。

模型结构如下图所示,HyDE将密集检索分解为两个任务,即 instruction-following的LM生成任务和对比编码器执行的文档相似性任务。

  • 首先生成一个问题的答案对于给定一个query,将由InstructGPT生成一个能回答该query的假设文档,即a hypothetical document。

  • 使用生成的答案进行检索:使用无监督的稠密检索模型(Contriever)把该文档表示为稠密向量。

  • 最后基于最近邻从语料库中找到相似的文档,作为支撑信息然后进行问答。

unsetunset实现unsetunset

https://github.com/gomate-community/GoMate/blob/main/gomate/modules/rewriter/hyde_rewriter.py


import pandas as pd

from tqdm import tqdm

import os

from gomate.modules.generator.llm import GLMChat

from gomate.modules.retrieval.dense_retriever import DenseRetriever, DenseRetrieverConfig

from gomate.modules.rewriter.base import BaseRewriter

from gomate.modules.rewriter.promptor import Promptor

from gomate.modules.document.common_parser import CommonParser



class HydeRewriter(BaseRewriter):

    def __init__(self, promptor, generator, retriever):

        self.promptor = promptor

        self.generator = generator

        self.retriever = retriever



    def prompt(self, query):

        return self.promptor.build_prompt(query)



    def rewrite(self, query):

        prompt = self.promptor.build_prompt(query)

        hypothesis_document, _ = self.generator.chat(prompt, llm_only=True)

        return hypothesis_document



    def retrieve(self, query, top_k=5):

        hypothesis_document = self.rewrite(query)

        hits = self.retriever.retrieve(hypothesis_document, top_k=top_k)

        return {'hypothesis_document': hypothesis_document, 'retrieve_result': hits}



检索效果对比:




53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询