微信扫码
与创始人交个朋友
我要投稿
探索RAG架构如何革新大模型性能,引领“检索-生成”新范式。核心内容:1. RAG突破传统模型限制,提升大模型生成效果2. RAG的定义、优势及主流架构解析3. RAG在实际应用中的效果和可追溯性优势
目录:
RAG 实践
为什么需要 RAG?
Cloud Native
RAG 的核心思想是将检索系统与生成模型相结合,通过动态检索外部知识库来增强模型的生成能力。这一架构突破了传统模型的静态知识限制,拓展了模型开启了“生成+检索”协同工作的新范式。
RAG 的定义、优势和常见架构?
Cloud Native
由于外部的知识库是精挑细选的,使得知识库本身的语料质量相对较高,且因有专人维护,大幅提升了生成效果。例如国内的知网、国家法律法规数据库、万方数据库等,国外的有维基百科、ArXiv、Google Scholar 等。
RAG 带来诸多优势,包括无需重新训练模型,即可更新知识库;生成结果可追溯至检索到的具体文档片段;相比使用语料库去微调(Fine-tuning)大模型,RAG 的部署和维护成本更低。我们将其优势总结如下:
|
||
|
||
RAG 的常见架构:
Naive RAG:最基础的 RAG 架构,通过检索相关文档片段并将其作为上下文输入到生成模型中来生成响应。就像你去图书馆找书,先随便找几本相关的,然后读一读,再写个总结。
Retrieve-and-rerank:这种架构首先检索相关的文档片段,然后对这些片段进行重新排序,以选择最相关的片段作为上下文输入到生成模型中。就像你在图书馆先找一堆书,然后仔细看看哪些书最相关,再用这些书来写总结。
Multimodal RAG:这种架构处理多模态数据(如文本、图像等),通过多模态嵌入模型将不同类型的输入转换为统一的表示形式,然后进行检索和生成。这次你不仅找书,还找图片、视频等各种资料,把它们都变成可以比较的东西,再找最相关的来用。
Graph RAG:这种架构利用图数据库存储和检索信息,通过图结构来捕捉数据之间的关系,从而生成更相关的响应。你用一种特别的方式组织你的资料,比如思维导图,这样更容易找到最相关的信息。
Hybrid RAG:这种架构结合了多种检索和生成技术,旨在提高系统的灵活性和性能。你用各种方法找资料,比如图书馆、网络搜索等,然后综合起来用。
Agentic RAG (Router):这种架构使用代理(agent)来路由查询到不同的检索和生成模块,根据查询的类型和需求选择最优的处理路径。你有一个小助手,它帮你决定去哪里找资料,比如是去图书馆还是上网搜。
还有哪些方式,
可以提升大模型的生成结果
Cloud Native
提示词是最原始、最直观的与大语言模型的交互方式,是一种指令或引导信息。例如一年前我们和大模型交互,往往会先为大模型设定一个角色。“假设你是一位健身教练,帮我准备一周的健身食谱”。
微调是指在预训练模型(如 BERT、GPT)的基础上,使用特定任务的数据继续训练,调整模型参数,使其适应新任务(如法律文件输出、医疗文本分类)。微调的技术方案众多,沿着性价比(资源投入vs.生成效果)的演进路线在迭代。主流的微调方案有:
蒸馏是一种模型压缩技术,通过让小型模型(学生模型)模仿大型复杂模型(教师模型)的“知识”,使得小模型能在保持较高性能的同时显著减少计算资源需求。
RAG 实践
Cloud Native
大模型 API 服务定价分为每百万输入 tokens X 元(缓存命中)/ Y 元(缓存未命中),X 远低于 Y,以通义系列微例,X 仅为 Y 的 40%,若能设计较好的缓存命中逻辑,不仅能降低响应延时,还将能缩减大模型 API 的调用成本。
需要有较高的缓存命中率,命中缓存后,可以不用向 LLM API 发送请求,下面列举几种情况:
以下面的 case 为例,第二个请求应该使用第一个请求 LLM 返回的结果,而不应该再去请求 LLM API:
以下面的 case 举例,第一组多轮对话的 A1 可以用于第二组多轮对话的 A2,第一组多轮对话的 A2 可以用于第二组多轮对话的 A1:
对于不应该命中缓存的请求,不应该返回缓存中的结果,而应该去请求 LLM API 返回结果,下面列举几种情况:
以下面的 case 举例,第二个请求不应该返回第一个请求的结果:
以下面的 case 举例,第一组多轮对话最后的结果,不能用于第二组多轮对话的结果:
仍然以基于 Higress 内容的 RAG 场景为例,下面的问题应该统一返回“抱歉,我无法回复此问题”,例如:
更多信息可参考《如何从网关层降低 AI 的调用成本》。
https://arxiv.org/abs/2005.11401v4
[2] Higress 的编程挑战赛
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-05
RAG+LlamaParse:引领PDF解析与检索新时代!
2025-02-05
打造RAG智能助手:实时数据检索的终极指南!惊呆你的需求,如何一步到位?
2025-02-05
RAG知识库中文档包含表格数据如何处理?
2025-02-05
产品思维的角度来讲,Deep Research本质是Co-RAG
2025-02-04
你的RAG系统真的达标了吗?生产环境RAG成功的7大关键指标
2025-02-01
35页综述:Agentic RAG七大架构首次曝光!
2025-01-28
Model2Vec加速RAG:模型小15倍,速度快500倍:
2025-01-27
穿过幻觉荒野,大模型RAG越野赛
2024-07-18
2024-09-04
2024-05-05
2024-06-20
2024-10-27
2024-07-09
2024-07-09
2024-06-13
2024-05-19
2024-07-07
2025-02-05
2025-02-05
2025-01-24
2025-01-24
2025-01-20
2025-01-18
2025-01-18
2025-01-18