支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


构建生产级RAG系统注意事项

发布日期:2025-03-25 12:03:25 浏览次数: 1559 来源:PyTorch研习社
推荐语

构建生产级RAG系统时,需要关注的关键组件和管理要点一网打尽。

核心内容:
1. 检索、数据切分及嵌入模型的选择
2. 向量数据库和搜索策略
3. 规则与启发式在检索过程中的应用
4. 大型语言模型的选择与Prompt设计
5. 观察、评估、监控和安全性的重要性

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

构建生产级 RAG(检索增强生成)AI 系统是一个艰难的任务。


?是 RAG 系统中的一些关键组件,你需要对它们进行管理和持续优化,以实现预期的效果(不要错过最后的 H 部分):


检索(Retrieval)


F) 数据切分(Chunking) - 如何对用于外部上下文的数据进行切分?

  • 小块 vs. 大块。
  • 滑动窗口(sliding window)或滚动窗口(tumbling window)进行切分。
  • 在搜索时是检索父级或关联块,还是仅使用原始检索数据?

C) 选择嵌入模型(Choosing the embedding model)

  • 用于将数据嵌入和查询外部上下文的模型选择。
  • 考虑上下文化嵌入(Contextual embeddings)。

D) 向量数据库(Vector Database)

  • 选择哪种数据库。
  • 部署位置。
  • 需要存储哪些元数据以便与嵌入向量关联。
  • 索引策略。

E) 向量搜索(Vector Search)

  • 相似度度量的选择。
  • 查询路径的选择:先基于元数据还是先使用 ANN(近似最近邻)搜索?
  • 采用混合搜索(Hybrid Search)。

G) 规则与启发式(Heuristics) - 在检索过程中应用的业务规则。

  • 时间权重(Time importance)。
  • 重新排序(Reranking)。
  • 处理重复上下文(多样性排序)。
  • 来源检索(Source retrieval)。
  • 条件性文档预处理。


生成(Generation)


A) LLM 选择(Choosing the right Large Language Model)

✅ 随着 LLM 的发展,这个问题变得越来越简单。当前,开源和专有 LLM 的性能正在趋同,主要的选择在于:

  • 使用专有模型(Proprietary model)。
  • 自行托管(Self-hosting)。

B) Prompt 设计(Prompt Engineering)

即使有了外部上下文,仍然需要精心设计 Prompt:

  • 使系统生成符合预期的输出。
  • 预防越狱(Jailbreak)场景。


别忘了一个容易被忽略的部分


H) 观察、评估、监控和安全性(Observing, Evaluating, Monitoring and Securing)

确保生产环境下的应用运行稳定、安全,并能持续优化!


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询