我要投稿

大模型RAG实战｜基于LlamaIndex的大模型应用架构设计

发布日期：2024-10-15 08:27:36 浏览次数： 2982

作者：大卫THINK

微信搜一搜，关注“大卫THINK”

LlamaIndex是一个专为构建大模型RAG应用开发的数据框架。

基于这个框架，我们可以加载文档和网页，优化对其中非结构化数据的处理，使用文本转换高级提取管道，从而构建企业级知识库；然后，采用BM25检索和向量检索实现混合检索方法，获取准确有用的信息，发送给大模型生成回答，并实现类ChatGPT的流式输出。

以上，是《大模型RAG实战》系列文章已经涵盖的主题。

现在，我们要构建一个生产级的大模型RAG应用，不但要掌握这些高级技术，还要对应用的架构有所了解。

本文以ThinkRAG项目为实例，基于LlamaIndex框架，介绍大模型应用的架构设计。

先上图。

在这张架构图中，我把大模型应用涉及的组件分为6类，分别是：

框架（Framework）
大语言模型（LLM）
存储（Storage）
工具（Tools）
基础设施（Infrastructure）
前端（Frontend）

下面，介绍每一类组件包含的内容。

1. 框架（Framework）

采用Langchain或LlamaIndex这样的框架，让构建大模型应用变得简单.以至于用10行代码，就可以实现一个可演示的系统。

这个系统能支持从加载（Load）、文本分割（Split）、嵌入（Embed）、保存到向量数据库（Store）、检索（Retriever），实现查询（Query）和对话（Chat）的整个过程。

同时，系统还对接和调用各种大语言模型（LLM）与工具（Tools），适配各种数据存储（Storage）。

此外，LlamaIndex框架还支持一些高级功能，如工作流（Workflow）、智能体（Agent）、评估（Evaluation）和微调（Fine-Tuning），以及多模态（Multi-Modal），功能非常全面和强大。

不过，采用框架，对于复杂场景下的企业级应用不一定是最佳选择。过度的抽象，会导致缺乏灵活性并带来性能的损失。

因此，当应用系统开发的初期，我们可以基于框架加速开发和部署，把开发重心放在更关键的功能特性上。

未来，我们可基于框架进行深度定制，或抛弃框架直接优化相关功能。

2. 大语言模型（LLM）

在应用中使用大模型，通常有两种方式。

一种方式是通过Ollama等工具，将模型下载到本地部署运行，例如GLM、Llama、Gemma等模型。

但是运行这些本地模型，需要算力支持。尽管glm4:9b这样尺寸的模型，可以在个人电脑上运行，但是性能和效果都欠佳。如有算力资源，建议在AI服务器上下载和使用百亿级参数的模型。

另一种方式是调用大模型厂商的线上API服务，如OpenAI或国内的智谱（Zhipu）、月之暗面（Moonshot）、深度求索（DeepSeek）提供的大模型服务。

这种方式的优点是性能好、响应快。但是，大量使用消耗token会导致成本较高。而且，如果系统处于隔离的内网环境，也无法使用外部服务。

3. 存储（Storage）

一个完整的应用系统需要存储各种数据，包括对话记录、向量数据、文本数据、配置信息等等。系统需要对接各种类型的数据库。

其中最关键的是向量数据库，用来存储嵌入后向量数据、处理后的文本（Document & Text Node）数据和索引（Index）数据。

如果在个人电脑上使用ThinkRAG，那么嵌入式的向量数据库如Chroma和LanceDB，是比较好的选择。若要在服务器上部署，则可以选择Milvus、Elasticseach等作为向量数据库。

在ThinkRAG中，我们不但使用了Chroma作为向量数据库，也使用了Redis作为单独的文档存储（Doc Store）和索引存储（Index Store），以便于管理知识库。

这里，我们也可以使用MongoDB替代Redis。这两者，在LlamaIndex中都可以适用于键值（Key Value）数据库的场合。

由于已经安装了Redis，我们在ThinkRAG中，还继续使用Redis作为文本提取高级管道的缓存（Ingestion Cache），存储对话记录（Chat Store）。

最后，系统还有各种配置信息的存储。此类数据量不大，我们采用LlamaIndex提供的简单键值存储（SimpleKVStore），并通过一个本地文件（config_store.json）持久化。

这样，如果在笔记本电脑上部署并以生产模式运行ThinkRAG，我们只需要额外安装一个Redis服务。

更为简单的是，如果以开发模式运行，那么所有数据都以文件的形式在本地存储，不需要额外安装任何数据库。

4. 工具（Tools）

一个生产级系统，需要引入多个工具。在架构图中我列举了一些，比如：文本分割的工具，ThinkRAG用的是对中文更合适的Spacy Text Splitter。

再者，对网页信息的抓取，ThinkRAG基于BeautifulSoup实现。我们也可以使用Jina提供的Reader服务，可以抓取和处理网页信息，并输出为Markdown格式，缺点是响应有点慢。

更为关键的工具，是嵌入模型和重排模型，推荐使用北京智源人工智能研究院（BAAI）开发的BGE系列模型，实用效果很好。你也可以选用HuggingFace上的其他模型。

这些模型都可以从HuggingFace下载和使用，ThinkRAG内置了相应的国内镜像网址。

此外，该类别下还有更多的工具，目前ThinkRAG还没有涉及，尤其是与智能体和外部服务调用相关的工具。

5. 基础设施（Infrastructure）

基础设施包含的内容，取决于你的部署和运行环境。

如果在笔记本电脑上运行ThinkRAG应用，那么对CPU和内存会有要求。未来，AI PC普及之后，将对系统提供更好的支撑。

如果使用到外部的模型，你需要能够访问和下载这些模型，例如前面提到的HuggingFace。你也可以使用托管在云端的数据库服务，包括Milvus、Redis、MongoDB、Elasticsearch等等。

进一步，当使用的模型需要进行微调训练，那么还需要提供相应的算力资源、PyTorch等深度学习框架与运行环境。

6. 前端（Frontend）

构建大数据或AI应用的前端工具，有Streamlit、Chainlit、Gradio等。

ThinkRAG选用的是Streamlit。它基于Python，提供了很多简单易用的数据可视化工具，也有一定的可扩展性。

这使得我们不需要前端开发经验，就可以快速构建和演示一个AI应用，也让我们可以把时间精力聚焦于AI本身。

基于Streamlit实现的ThinkRAG前端页面展示如下：

不过，如果要打造一个更美观、更好用、令用户喜爱的产品，Streamlit是远远不能满足需求的。

这时，我们可以基于React前端框架，重构前端应用，并通过FastAPI封装后端服务，形成前后端分离的架构。同时，我们还要对后端服务进行优化，以支持多用户、并发、大数据量的场景。

再进一步，我们可以基于Electron，将应用打包成可下载安装的应用软件，而非启动后端服务后在浏览器中打开。这里可以参考开源项目AnythingLLM的技术栈。

结语

最后要说明的是，ThinkRAG的定位，是可在笔记本电脑上运行的本地知识库大模型RAG应用。

因此，在上文所述的架构中，ThinkRAG对于各种组件和技术的运用有所取舍。

如果要提供企业级服务、处理海量的数据，那么可以同样按照这个架构，选用合适的组件，对前后端进行重构与优化，将能满足需求。

ThinkRAG已在Github开源，你可以通过以下网址或点击“阅读原文”，获取代码和文档。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-16

Java 开发者的轻量级 RAG 方案：MeiliSearch 混合搜索实战

2026-03-11

Embedding相似度虚高，如何用langchain+Milvus搭建CRAG解决？

2026-03-11

上下文腐烂：拖垮企业AI与LLM表现的隐患与对策

2026-03-10

从向量里逆向出原始文本和模型来源

2026-02-27

如何用 AI 做业务级 Code Review

2026-02-22

不用向量数据库的 RAG，居然跑得更准了？

2026-02-22

AIOps探索：做运维领域的RAG，如何做数据清洗

2026-02-21

Claude Code 每次都要重新探索代码？这个工具直接省下30%成本

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

2026 年你需要了解的 RAG 全解析

2026-01-15

如何用NotebookLM，把枯燥的财报解读成精美的PPT？

2026-01-02

为什么Claude Code不用RAG？

2025-12-23

深度解析 PageIndex：无向量 RAG 框架的技术实现与原理剖析

2026-02-13

使用 Agent Skills 做知识库检索，能比传统 RAG 效果更好吗？

2026-02-03

从 RAG 到 Context：2025 年 RAG 技术年终总结

2025-12-18

告别向量数据库！PageIndex：让AI像人类专家一样阅读长文档

2026-02-03

企业RAG知识库系统中关于向量数据库的对比选型指南

2025-12-31

当 Claude Code 连接 NotebookLM，个人 AI 终于有了“长期记忆”

2026-01-06

Claude Code 外挂最强大脑 NotebookLM Skill

2025-12-29

大家都在问

Embedding相似度虚高，如何用langchain+Milvus搭建CRAG解决？

2026-03-11

不用向量数据库的 RAG，居然跑得更准了？

2026-02-22

当RAG遇上Agent记忆：为什么相似度检索会"塌方"？

2026-02-15

Claude Cowork 真能替换 RAG ？

2026-02-04

使用 Agent Skills 做知识库检索，能比传统 RAG 效果更好吗？

2026-02-03

为什么 RAG 越用越慢？如何反向调优？

2026-01-19

NotebookLM如何在48小时内分析2万份论文？

2026-01-12

都有混合检索与智能路由了，谁还在给RAG赛博哭坟？

2026-01-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw