微信扫码
添加专属顾问
我要投稿
这个工作要解决个什么问题呢? RAG 得流程是通过将文档召回,放入LLM的上下文中,来提供更准确和相关的答案。但是现有的 RAG 解决方案可能比较难处理,召回的内容来自完全不同的文档,因为这些文档在语义空间中可能很远,很难将它们全部检索出来。
论文中有张图如下图,正常的RAG在遇到query有点复杂的时候,在召回的时候就很麻烦。如果是纯粹的绿点主题或者黄点主题那都没太大问题。但是如果是复杂的多主题的,到向量空间之后就不好召回了。
那咋整呢,大概的一个方案就是下图,query被拆解成了多个向量,每个向量比较纯粹,类似于多路召回,总能匹配到需要的chunk。
怎么获取多个向量呢? MRAG通过使用Transformer的多头注意力层的特征作为向量表征,而不是仅使用取最后解码器层的输出,这样做的动机是不同的注意力头可以学习捕获数据的不同方面。每一层取一个向量,取最后一个位置的。chunks和query都生成多个向量,检索的时候,使用投票策略,结合了不同嵌入空间的重要性得分(根据一层的头内向量空间分布计算的),来选择最相关的文本块,并根据其重要性对检索结果进行加权。
最后结果在召回的相关性方面获得了比较大的提升
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-22
文档解析主流开源工具全家桶及RAG中的文档目录解析PageIndex思路解析
2025-04-22
腾讯发布Conan-Embedding-V2,登顶MTEB中英榜单,性能更强、覆盖场景更广
2025-04-22
想让 FastGPT 更猛?试试 OceanBase 向量数据库吧!
2025-04-22
RAG应用必备!10种向量数据库全解析、Weaviate、Milvus、pgvector、Qdrant等热门工具谁更强?
2025-04-22
深度拆解RAGFlow分片引擎!3大阶段+视觉增强,全网最硬核架构解析
2025-04-22
国人AI IDE神器Trae+MCP实现知识库检索精度暴涨300%【喂饭级教程】
2025-04-22
理解 RAG 第二部分:经典 RAG 的工作原理
2025-04-22
18种RAG技术大比拼:谁才是检索增强生成的最佳选择?
2024-10-27
2024-09-04
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-04-22
2025-04-22
2025-04-20
2025-04-19
2025-04-18
2025-04-16
2025-04-14
2025-04-13