我要投稿

LlamaIndex入门指南和RAG原理

发布日期：2025-04-22 08:57:44 浏览次数： 1536 作者：AI悠悠

一、什么是LlamaIndex

LlamaIndex 是一个用于LLM 应用程序的数据框架，用于注入，结构化，并访问私有或特定领域数据，专门为大语言模型（LLM）提供外部数据接入的能力。简单说：

它可以把你自己的文件、数据库、网页等数据，喂给大语言模型，让它变聪明！

LlamaIndex 由 Jerry Liu (Twitter: @jerryjliu0) 联合创办，并担任CEO。

1、官网（文档）

https://docs.llamaindex.ai/en/stable/

2、github地址

https://github.com/run-llama/llama_index

3、中文文档（非官方，版本有点旧）

https://llama-index.readthedocs.io/zh/latest/index.html

二、为什么用 LlamaIndex

在本质上，LLM （如 GPT、DeepSeek、QWen）为人类和推断出的数据提供了基于自然语言的交互接口。广泛可用的大模型通常在大量公开可用的数据上进行的预训练，包括来自维基百科、邮件列表、书籍和源代码等。

构建在LLM模型之上的应用程序通常需要使用私有或特定领域数据来增强这些模型。不幸的是，这些数据可能分布在不同的应用程序和数据存储中。它们可能存在于API之后、SQL数据库中，或者存在在PDF文件以及幻灯片中。LlamaIndex应运而生。

有了 LlamaIndex，就可以：

把本地文档、数据库、网页等变成可查询的知识源
和大模型配合使用，实现 "基于你自己的数据" 来问答（也叫 RAG：Retrieval-Augmented Generation）

三、LlamaIndex 的特点

特点	说明
? 数据接入丰富	支持文件、数据库、Notion、API 等各种数据源
? 灵活的索引结构	支持向量索引、树状索引、关键词索引等
⚙️ 模块化设计	数据加载、切分、嵌入、索引、查询都可以自定义
? 支持 RAG	和 LangChain 类似，适用于基于私有知识问答

四、LlamaIndex和 LangChain 的区别

对比点	LlamaIndex	LangChain
重点	数据加载 & 处理 & 索引	Agent & Chain（流程管理）
使用难度	简洁上手快	更灵活但稍复杂
推荐搭配	可以一起用：LlamaIndex 提供数据 → LangChain 负责逻辑

一句话总结：LlamaIndex = 把大语言模型接入你自己数据的最佳工具之一。

五、适合用 LlamaIndex 的场景

给大模型接入公司文档、项目资料等做问答
构建企业内部知识库
构建智能问答机器人
私人助理（比如你把 Notion 笔记喂进去）

六、LlamaIndex 的5大核心工具

1、Data Connectors 数据连接器

连接各种类型的数据，提取数据给到LlamaIndex，LlamaIndex再给到大模型。这些数据源可以是 API、PDF、SQL、MarkDown、CSV、Txt 等等。

2、Data Indexes 数据索引

DataConnectors将文本数据给LlamaIndex后，LlamaIndex再将数据给大模型之前，需要将文本转向量，一般使用Embeding模型将文本转成向量。这个过程是由Data Indexes来负责。

Data Indexes将文本存储为向量后，LlamaIndex需要使用这些向量数据，所以需要创建索引来查找和使用向量，并且以Tree树状存放，检索使用Keyword Table 关键词表格。

因此Data Indexes的核心是将文本向量化，并且拿到其索引进行检索。

3、Engines 引擎

通过引擎Engines来加载大模型进行检索和处理数据。Query是单轮的，Chat是多轮的有历史对话的，两大功能本质是一样的。因此 Engines是用来连接大模型的

4、Data Agents 数据智能体

处理一些复杂的逻辑。

5、Application Integrations 应用整合

LlamaIndex可以将RAG整合到其他AI应用中，作为辅助插件。

LlamaIndex的核心只有3部分：数据读取，数据向量化存取，加载大模型。

七、核心概念（重点掌握）

LlamaIndex 帮助构建 LLM驱动的，基于个人或私域数据的应用。RAG(Retrieval Augmented Generation) 是 LlamaIndex 应用的核心概念。

想要了解RAG,LlamaIndex，必须要看懂本章节 !!

1、RAG

RAG，也称为检索增强生成，是利用个人或私域数据增强 LLM的一种范式。通常，它包含两个阶段：

（1）索引

构建知识库。

（2）查询

从知识库检索相关上下文信息，以辅助 LLM 回答问题。

LlamaIndex 提供了工具包帮助开发者极其便捷地完成这两个阶段的工作。

RAG技术实现后的对话，大体流程是这样的：

         用户问题            ↓    生成问题向量（Embedding）            ↓      在向量库中检索资料            ↓  找到相关文档（Top K 小段）            ↓  拼接文档+问题 → 提示词 Prompt            ↓      发送给大语言模型（LLM）            ↓        生成最终回答

大模型不会直接答复客户的问题，而是先去向量库里检索资料，客户的问题相是否存在知识库里，大模型会根据知识库里的做个总结，再给客户回答；若不存在向量库里，则大模型自己回答。

接下来详细讲解两个阶段（索引和查询）。

2、索引阶段

LlamaIndex 通过提供 Data connectors(数据连接器) 和 Indexes (索引) 帮助开发者构建知识库。

该阶段会用到如下工具或组件：

Data connectors

数据连接器。它负责将来自不同数据源的不同格式的数据注入，并转换为 LlamaIndex 支持的文档（Document）表现形式，其中包含了文本和元数据。

Documents / Nodes

Document是 LlamaIndex 中容器的概念，它可以包含任何数据源，包括，PDF文档，API响应，或来自数据库的数据。

Node是 LlamaIndex 中数据的最小单元，代表了一个 Document的分块。它还包含了元数据，以及与其他Node的关系信息。这使得更精确的检索操作成为可能。

Data Indexes

LlamaIndex 提供便利的工具，帮助开发者为注入的数据建立索引，使得未来的检索简单而高效。最常用的索引是向量存储索引 - VectorStoreIndex 。

上图Documents-->Knowledge Base，是由Data Indexes来执行，主要有2个操作，Data Embeding将文本转词向量，再构建索引，将数据存储到知识库中。

知识库就是文本向量化后的数据。

3、查询阶段

在查询阶段， RAG 管道根据的用户查询，检索最相关的上下文，并将其与查询一起，传递给 LLM，以合成响应。这使 LLM 能够获得不在其原始训练数据中的最新知识，同时也减少了虚构内容（幻觉）。该阶段的关键挑战在于

检索（提供的数据的准确度，Embeding）、
编排（排序）
基于知识库的推理（大模型的推理能力）。

LlamaIndex 提供可组合的模块，帮助开发者构建和集成 RAG 管道，用于问答、聊天机器人或作为代理的一部分。这些构建块可以根据排名偏好进行定制，并组合起来，以结构化的方式基于多个知识库进行推理。

3.1 该阶段的构建块包括：

Retrievers

检索器。它定义如何高效地从知识库，基于查询，检索相关上下文信息。

Node Postprocessors

Node后处理器。它对一系列文档节点（Node）实施转换，过滤，或排名。

Response Synthesizers

响应合成器。它基于用户的查询，和一组检索到的文本块（形成上下文），利用 LLM 生成响应。

3.2 RAG管道包括：

Query Engines

查询引擎 - 端到端的管道，允许用户基于知识库，以自然语言提问，并获得回答，以及相关的上下文。（单次对话）

Chat Engines

聊天引擎 - 端到端的管道，允许用户基于知识库进行对话（多次交互，会话历史）。

Agents

代理。它是一种由 LLM 驱动的自动化决策器。代理可以像查询引擎或聊天引擎一样使用。主要区别在于，代理动态地决定最佳的动作序列，而不是遵循预定的逻辑。这为其提供了处理更复杂任务的额外灵活性。

八、官网介绍

我们学习和查找官网资料，重点看“Examples”栏目，也就是这个网址：

https://docs.llamaindex.ai/en/stable/examples/

LlamaIndex在不断地更新迭代中，内容也在不断地增加，分类也更细了。从左侧的菜单导航就可以看到，比如Data Connectors子菜单就有很多种数据连接说明。若有需要查询和学习，就在这里找资料。

九、编写示例代码

1、编写一个简单的示例

（1）创建虚拟环境和安装LlamaIndex核心包。

#创建虚拟环境conda create -n llamaindex python==3.12 -y# 激活conda activate llamaindex# 安装 llama-index 核心包pip install llama-index

（2）我们用到它的各种组件，还需要安装对应的包

比如，我们要使用 hugging face的sdk,到官网--Examples--LLMs--Hugging Face LLMs 文档中查找，发现需要安装如下包，这个包可以调用本地的大模型（离线包）。

pip install llama-index-llms-huggingface

若调用hugging face在线的接口，则需要安装这个包。

pip install llama-index-llms-huggingface-api

写一个demo，LlamaIndex调用本地大模型的对话接口。

from llama_index.core.llms import ChatMessagefrom llama_index.llms.huggingface import HuggingFaceLLM#使用HuggingFaceLLM加载本地大模型llm = HuggingFaceLLM(model_name="/root/autodl-tmp/llm/Qwen/Qwen2.5-3B-Instruct",               tokenizer_name="/root/autodl-tmp/llm/Qwen/Qwen2.5-3B-Instruct",               model_kwargs={"trust_remote_code":True},               tokenizer_kwargs={"trust_remote_code":True})#调用模型chat引擎得到回复rsp = llm.chat(messages=[ChatMessage(content="xtuner是什么？")])print(rsp)

因为Qwen1.5大模型没有喂xtuner的相关数据，因此它不知道什么是xtuner，大模型会一本正经的胡说八道（幻觉），回答的问题肯定是错的。如何快速地解决这个问题呢?请看下面的例子。

2、LlamaIndex实现一个简单的RAG

本示例使用LlamaIndex开发一个简单的RAG，解决上面的幻觉问题。

需要用到Embedding做文本转向量；
再从xtuner的github上下载一个xtuner的介绍文本(markdown格式），也可以自制一个txt文档，里面写xtuner是什么。

代码实现的步骤如下：

（1）下载大模型到本地

下载Qwen2.5-3B-Instruct模型到本地。

# 安装 魔塔社区包pip install modelscope

#模型下载from modelscope import snapshot_downloadmodel_dir = snapshot_download('Qwen/Qwen2.5-3B-Instruct',cache_dir=r"D:\Test\LLMTrain\testllm\llm")

（2）下载Embedding模型到本地

去魔塔社区查找“sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2”这个模型，并且下载到本地。

#模型下载from modelscope import snapshot_downloadmodel_dir = snapshot_download('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2',cache_dir=r"/root/autodl-tmp/llm")

（3）自制一个文本文档

下载github上xtuner的介绍文档到本地data目录。

https://github.com/InternLM/xtuner/blob/main/README_zh-CN.md

（4）编写python程序

from llama_index.embeddings.huggingface import HuggingFaceEmbeddingfrom llama_index.core import Settings,SimpleDirectoryReader,VectorStoreIndexfrom llama_index.llms.huggingface import HuggingFaceLLM
#初始化一个HuggingFaceEmbedding对象，用于将文本转换为向量表示embed_model = HuggingFaceEmbedding(    #指定了一个预训练的sentence-transformer模型的路径    model_name="/root/autodl-tmp/llm/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
#将创建的嵌入模型赋值给全局设置的embed_model属性，这样在后续的索引构建过程中，就会使用这个模型Settings.embed_model = embed_model
#使用HuggingFaceLLM加载本地大模型llm = HuggingFaceLLM(model_name="/root/autodl-tmp/llm/Qwen/Qwen2.5-3B-Instruct",               tokenizer_name="/root/autodl-tmp/llm/Qwen/Qwen2.5-3B-Instruct",               model_kwargs={"trust_remote_code":True},               tokenizer_kwargs={"trust_remote_code":True})#设置全局的llm属性，这样在索引查询时会使用这个模型。Settings.llm = llm
#从指定目录读取文档，将数据加载到内存documents = SimpleDirectoryReader("/root/autodl-tmp/project/day18/data").load_data()# print(documents)#创建一个VectorStoreIndex,并使用之前加载的文档来构建向量索引#此索引将文档转换为向量，并存储这些向量（内存）以便于快速检索index = VectorStoreIndex.from_documents(documents)#创建一个查询引擎，这个引擎可以接收查询并返回相关文档的响应。query_engine = index.as_query_engine()rsp = query_engine.query("xtuner是什么？")print(rsp)

运行该脚本，就能得到关于"xtuner是什么"的正确回答了。

代码每一步都有操作说明，请认真看注释内容。代码的大体逻辑是这样的：

用户问题: "xtuner是什么？"↓向量索引常见的查询引擎↓相似度匹配↓匹配的结果再回到大模型↓生成最终的回答

本篇文章的示例代码比较简单，实际开发RAG还需要更多逻辑处理，下一篇我们将详细讲解相关技术点！敬请关注！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业