我要投稿

微软技术社区：做RAG？向量搜索还不够

发布日期：2024-06-16 09:24:37 浏览次数： 6141

作者：PaperAgent

微信搜一搜，关注“PaperAgent”

RAG流程检索器肯定应该支持向量搜索，因为这可以找到与用户查询具有相似语义的文档，但向量搜索还不够。检索器应该支持完全混合搜索，这意味着它可以同时执行向量搜索和全文搜索，然后合并并重新排列结果。这将使RAG流程能够找到语义相似的概念，还可以找到精确匹配项，例如专有名称、ID和数字。

混合搜索步骤

Azure AI Search提供包含以下所有组件的完整混合搜索：

它使用距离度量（通常是余弦或点积）执行向量搜索。
它使用BM25 评分算法执行全文搜索。
它使用倒数秩融合算法合并结果。
它使用语义排名器（Bing 使用的机器学习模型）对结果重新排名，将每个结果与原始用户查询进行比较并分配 0-4 之间的分数。

什么时候需要混合搜索？

为了证明超越向量搜索的重要性，基于来自一家虚构的公司文档，讨论了医疗保健和福利等内部政策。

首先使用AI搜索索引通过纯向量搜索来搜索“什么计划的费用为 45.00美元？”：

search_query = "what plan costs $45.00"search_vector = get_embedding(search_query)r = search_client.search(None, top=3, vector_queries=[VectorizedQuery(search_vector, k_nearest_neighbors=50, fields="embedding")])

该查询的结果包含数字和费用，例如字符串“初级保健访问的共同支付费用通常约为20美元，而专科医生访问的共同支付费用约为50美元。”，但没有一个结果包含用户所寻找的确切费用 45.00 美元。

现在使用纯全文搜索尝试该查询：

r = search_client.search(search_query, top=3)

该查询的最佳结果包含健康保险计划费用表，其中一行包含45.00美元。

当然，不想局限于全文查询，因为许多用户查询最好通过向量搜索来回答，所以尝试使用混合查询：

r = search_client.search(search_query, top=15, vector_queries=[VectorizedQuery(search_vector, k_nearest_neighbors=10, fields="embedding")])

再次，顶部结果是包含成本和精确字符串 $45.00 的表格。当用户在完整的RAG应用程序上下文中提出该问题时，他们会得到他们希望得到的答案：

有多少用户在搜索精确的字符串？想想您在电子邮件中搜索某个人的名字的频率，或者您在网络上搜索某个特定编程函数名称的频率。用户会提出一些查询，而这些查询更适合全文搜索，这就是需要混合搜索解决方案的原因。

还有一个原因说明单靠向量搜索是不够的：假设您使用的是通用嵌入模型（如 OpenAI 模型），这些模型通常并不完美适合您的领域。它们对某些术语的理解与完全基于您领域的数据进行训练的模型不同。使用混合搜索有助于弥补嵌入领域的差异。

什么时候需要重新排名？

现在相信混合搜索，来讨论最后一步：根据原始用户查询对结果重新排名。

现在将使用混合搜索在同一文档中搜索“了解水下活动”：

search_query = "learning about underwater activities"search_vector = get_embedding(search_query)r = search_client.search(search_query, top=5, vector_queries=[VectorizedQuery(search_vector, k_nearest_neighbors=10, fields="embedding")])

该查询的第三个结果包含最相关的结果，即一份提及冲浪课程和水肺潜水课程的福利文件。值得注意的是，“水下”一词未出现在任何文件中，因此这些结果来自向量搜索组件。

如果添加语义排序器会发生什么？

search_query = "learning about underwater activities"search_vector = get_embedding(search_query)r = search_client.search(search_query, top=5, vector_queries=[VectorizedQuery(search_vector, k_nearest_neighbors=50, fields="embedding")],query_type="semantic", semantic_configuration_name="default")

现在，查询的最顶部结果是关于冲浪和潜水课程的文档块，因为语义排序器意识到这是与用户查询最相关的结果。当用户在 RAG 流程中提出这样的问题时，他们会得到一个正确的答案和预期的引用：

搜索在两种情况下都得到了正确的结果，那么为什么要费心使用排名器呢？对于将搜索结果发送 GPT-3.5等LLM的RAG应用程序，通常将结果数量限制为相当低的数量，例如3或5个结果。这是因为研究表明，当向LLM 提供太多上下文时，它们往往会“迷失在中间”。希望前N个结果是最相关的结果，并且不包含任何不相关的结果。通过使用重新排名器，顶级结果更有可能包含与查询最接近的匹配内容。

此外，还有一个很大的额外好处：现在每个结果的重新排序得分都在0-4之间，这可以轻松过滤掉重新排序得分低于某个阈值（如<1.5的结果）。任何包含向量搜索的搜索算法都总能找到结果，即使这些结果与原始查询根本不太接近，因为向量搜索只是在整个向量空间中寻找最接近的向量。因此，当您的搜索涉及向量搜索时，您理想情况下需要一个重新排序步骤和一种评分方法，这将使您更容易丢弃绝对相关性不够的结果。

实现混合搜索

以 PostgreSQL 数据库为例。它已经内置了全文搜索，并且有一个流行的扩展名为pgvector，用于引入向量索引和距离运算符。下一步是将它们组合在一起进行混合搜索，此示例来自pgvector-python存储库：。

WITH semantic_search AS (SELECT id, RANK () OVER (ORDER BY embedding <=> %(embedding)s) AS rankFROM documentsORDER BY embedding <=> %(embedding)sLIMIT 20),keyword_search AS (SELECT id, RANK () OVER (ORDER BY ts_rank_cd(to_tsvector('english', content), query) DESC)FROM documents, plainto_tsquery('english', %(query)s) queryWHERE to_tsvector('english', content) @@ queryORDER BY ts_rank_cd(to_tsvector('english', content), query) DESCLIMIT 20)SELECTCOALESCE(semantic_search.id, keyword_search.id) AS id,COALESCE(1.0 / (%(k)s + semantic_search.rank), 0.0) +COALESCE(1.0 / (%(k)s + keyword_search.rank), 0.0) AS scoreFROM semantic_searchFULL OUTER JOIN keyword_search ON semantic_search.id = keyword_search.idORDER BY score DESCLIMIT 5

该 SQL 通过运行向量搜索和文本搜索并将它们与 RRF 结合起来执行混合搜索。

另一个示例展示了如何引入交叉编码模型来进行最终的重新排序步骤：

encoder = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')scores = encoder.predict([(query, item[1]) for item in results])results = [v for _, v in sorted(zip(scores, results), reverse=True)]

如有疑问，请评估

在为RAG应用程序选择检索器和检索器选项时，需要评估答案质量。在上面逐步介绍了几个示例查询，但对于面向用户的应用程序，确实需要对大量问题（约200 个）进行批量评估，以查看选项对答案质量的影响。为了更轻松地运行批量评估，我创建了ai-rag-chat-evaluator存储库，它可以针对 RAG 聊天应用程序运行基于 GPT的指标和基于代码的指标。

以下是根据我所有的个人博客文章针对RAG应用程序合成生成的数据集进行评估的结果：

很震惊地发现向量搜索本身的表现如此糟糕，平均基础性为 2.79（满分5分），只有2%的答案的引用与基本事实引用相匹配。全文搜索本身表现相当不错，平均基础性为4.87，引用匹配率为89%。没有语义排序器的混合搜索比向量搜索有所改进，平均基础性为3.26，引用匹配率为11%，但使用语义排序器后表现要好得多，平均基础性为4.89，引用匹配率为92%。

但为什么向量搜索和无排序混合搜索的得分如此之低呢？

Azure AI Search 中的全文搜索选项确实很棒。它使用 BM25，并且经过了相当多的实战考验，在向量搜索变得如此流行之前就已经存在了很多年。BM25算法基于TF-IDF，并产生类似于稀疏向量本身的东西，因此它比简单的子字符串搜索更先进。AI Search还使用标准的 NLP 技巧，如词干提取和拼写检查。许多数据库都具有全文搜索功能，但它们并不都像 Azure AI Search 全文搜索那样功能齐全。
标准答案数据集偏向于与全文搜索兼容。通过将我的博客文章输入到 GPT-4 并要求它根据文本提出好的问答来生成示例问题和答案，所以GPT-4 很可能选择使用与我的帖子类似的措辞。实际的提问者可能会使用非常不同的措辞——他们甚至可能用不同的语言提问，比如西班牙语或中文！这就是向量搜索真正发挥作用的地方，也是全文搜索表现不佳的地方。

所以总而言之，如果要使用向量搜索，就绝对必须采用包含所有四个步骤的完整混合搜索，并且评估结果以确保使用最适合该工作的检索选项。

https://techcommunity.microsoft.com/t5/microsoft-developer-community/doing-rag-vector-search-is-not-enough/ba-p/4161073

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-18

5000万付费的OpenAI无限套餐要凉了！

2026-03-17

阿里云新品发布：Agent ID Guard，谁来管理“小龙虾们”的身份安全？

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

AI 推理精细化流量治理实战：RocketMQ LiteTopic 的“千人千面”流控方案

2026-03-17

企业级靠谱龙虾升级，拒绝失控

2026-03-17

AI，正在吞噬所有软件。

2026-03-17

0.9B小模型碾压PaddleOCR！GLM-OCR本地OCR新王者来了

2026-03-17

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

Claude Code Skills 国内实践全指南：从安装部署到高阶开发

2026-01-09

谷歌没想到：Antigravity 竟成了 Claude Code 的“免费充电宝”？

2025-12-30

深度解析——为什么Claude code CEO Dario 如此反中？

2026-01-23

我装了 9 个 Skill，终于看懂了 Google Antigravity 的野心

2026-01-21

大家都在问

阿里云新品发布：Agent ID Guard，谁来管理“小龙虾们”的身份安全？

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

粮厂研究员Will | 小米miclaw发布：谈谈为什么豆包手机没有撑过72小时？

2026-03-09

如果微信全面 AI 化了，会有什么后果？

2026-03-08

马斯克大赞阿里 AI，9B 参数硬刚 120B，海外网友：这叫小模型？

2026-03-03

Claude Code 的记忆机制：从CLAUDE.md到Auto Memory，它到底记住了什么？

2026-03-01

AGENTS.md 真的能帮助编码智能体吗？

2026-02-27

谷歌 Nano Banana 2 凌晨突袭！生图速度飙升，价格直接腰斩，Pro 功能竟然也免费了？

2026-02-27

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw