我要投稿

如何快速搭建个性化RAG聊天机器人

发布日期：2025-03-27 04:45:47 浏览次数： 1652 作者：三黄工作室

在 AI 领域，Retrieval-Augmented Generation（简称 RAG）已经成为生成式 AI 应用的重要技术，尤其是在对话式 AI 中。它结合了预训练大语言模型（LLM）如 OpenAI 的 GPT 和外部知识库（存储在向量数据库中，比如 Milvus 和 Zilliz Cloud），能够生成更加精准、上下文相关的回复，并且保持信息的实时性。

一个完整的 RAG 管道通常由四个基本组件组成：向量数据库、嵌入模型、LLM 和框架。

今天，我们就来一步步教大家如何用 Python 构建一个简单的 RAG 聊天机器人！如果你对 AI 技术感兴趣，或者正在寻找提升对话式 AI 性能的方法，这篇文章一定会让你收获满满。

我们会用到哪些关键技术组件？

在本次教程中，我们将使用以下工具和技术：

LangChain
可以帮助你轻松编排 LLM、向量存储、嵌入模型等之间的交互，从而简化 RAG 管道的集成过程。
Milvus
Milvus 是一款开源的向量数据库，专为高效存储、索引和搜索大规模向量嵌入而优化，非常适合 RAG、语义搜索和推荐系统等应用场景。当然，如果你不想自己管理基础设施，也可以选择 Zilliz Cloud，这是一个基于 Milvus 构建的全托管向量数据库服务，还提供免费套餐，支持多达 100 万个向量。
Fireworks AI Llama 3.1 8B Instruct
这个模型拥有 80 亿参数，擅长通过高级推理能力提供精确的指令和指导。无论是教育工具、虚拟助手还是互动内容生成，它都能生成连贯且多领域的响应，特别适合需要个性化交互的场景。
Cohere embed-multilingual-v2.0
这款嵌入模型专注于生成高质量的多语言嵌入，能够有效实现跨语言理解和检索。它的优势在于捕捉多种语言中的语义关系，非常适合多语言搜索、推荐系统和全球内容分析等应用。

第一步：安装并设置 LangChain

首先，我们需要安装 LangChain 相关依赖。打开你的终端，输入以下命令：

%pip install --quiet --upgrade langchain-text-splitters langchain-community langgraph

第二步：安装并设置 Fireworks AI Llama 3.1 8B Instruct

接下来，我们安装 Fireworks AI 的相关依赖。执行以下代码：

pip install -qU "langchain[fireworks]"
import getpass
import os
if not os.environ.get("FIREWORKS_API_KEY"):
    os.environ["FIREWORKS_API_KEY"] = getpass.getpass("Enter API key for Fireworks AI: ")
from langchain.chat_models import init_chat_model
llm = init_chat_model("accounts/fireworks/models/llama-v3p1-8b-instruct", model_provider="fireworks")

注意：你需要提前获取 Fireworks AI 的 API 密钥哦！

推荐大家去用硅基流动的API，Qwen 7B是免费的~

第三步：安装并设置 Cohere embed-multilingual-v2.0

接着，我们安装 Cohere 的嵌入模型依赖。运行以下代码：

pip install -qU langchain-cohere
import getpass
import os
if not os.environ.get("COHERE_API_KEY"):
    os.environ["COHERE_API_KEY"] = getpass.getpass("Enter API key for Cohere: ")
from langchain_cohere import CohereEmbeddings
embeddings = CohereEmbeddings(model="embed-multilingual-v2.0")

第四步：安装并设置 Milvus

现在，我们来安装 Milvus 向量数据库。执行以下代码：

pip install -qU langchain-milvus
from langchain_milvus import Milvus
vector_store = Milvus(embedding_function=embeddings)

第五步：构建 RAG 聊天机器人

到这里，所有组件都准备好了，接下来我们开始构建聊天机器人！我们会用 Milvus 的介绍文档作为私有知识库。当然，你也可以替换为你自己的数据集，定制属于你的 RAG 聊天机器人。

以下是完整的代码实现：

import bs4
from langchain import hub
from langchain_community.document_loaders import WebBaseLoader
from langchain_core.documents import Document
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langgraph.graph import START, StateGraph
from typing_extensions import List, TypedDict

# 加载并切分博客内容
loader = WebBaseLoader(
    web_paths=("https://milvus.io/docs/overview.md",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("doc-style doc-post-content")
        )
    ),
)
docs = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
all_splits = text_splitter.split_documents(docs)

# 索引切分后的文档
_ = vector_store.add_documents(documents=all_splits)

# 定义问答提示模板
prompt = hub.pull("rlm/rag-prompt")

# 定义应用状态
class State(TypedDict):
    question: str
    context: List[Document]
    answer: str

# 定义应用步骤
def retrieve(state: State):
    retrieved_docs = vector_store.similarity_search(state["question"])
    return {"context": retrieved_docs}

def generate(state: State):
    docs_content = "nn".join(doc.page_content for doc in state["context"])
    messages = prompt.invoke({"question": state["question"], "context": docs_content})
    response = llm.invoke(messages)
    return {"answer": response.content}

# 编译应用并测试
graph_builder = StateGraph(State).add_sequence([retrieve, generate])
graph_builder.add_edge(START, "retrieve")
graph = graph_builder.compile()

测试聊天机器人

好啦，聊天机器人已经搭建完成！让我们来测试一下吧：

response = graph.invoke({"question": "Milvus 支持哪些数据类型？"})
print(response["answer"])

示例输出

Milvus 支持多种数据类型，包括稀疏向量、二进制向量、JSON 和数组。此外，它还能处理常见的数值和字符类型，适用于不同的数据建模需求。这使得用户可以高效地管理非结构化或多模态数据。

优化

当我们构建 RAG 系统时，优化是确保性能和效率的关键。下面是一些针对各个组件的优化建议，帮助你打造更智能、更快、更灵敏的 RAG 应用。

LangChain 优化技巧

你可以通过减少冗余操作来优化 LangChain，比如合理设计链和代理的结构，利用缓存避免重复计算。模块化设计也能让你灵活更换模型或数据库，从而快速扩展系统。

Milvus 优化技巧

Milvus 是一个高效的向量数据库，优化它的性能可以从以下几个方面入手：

使用 HNSW（层次化导航小世界）索引来平衡速度和准确性；
根据使用模式对数据进行分区，提升查询性能；
批量插入向量以减少数据库锁竞争；
调整维度大小，找到适合你硬件和用例的最佳平衡点。

Fireworks AI Llama 3.1 8B Instruct 优化技巧

这款模型性价比很高，适合中等复杂度的 RAG 应用。你可以通过限制上下文长度、调整温度参数（建议 0.1-0.3）、以及缓存高频查询来优化其性能。

Cohere embed-multilingual-v2.0 优化技巧

这个多语言嵌入模型非常适合跨语言 RAG 场景。你可以通过预处理文本去除噪声、压缩嵌入、以及批处理操作来提升效率。

- END -

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-19

低代码 RAG 只是信息搬运工，Graph RAG 让 AI 具备垂直深度推理能力！

2025-04-18

微软PIKE-RAG全面解析：解锁工业级应用领域知识理解与推理

2025-04-18

AI 记忆不等于 RAG：对话式 AI 为何需要超越检索增强

2025-04-18

Firecrawl：颠覆传统爬虫的AI黑科技，如何为LLM时代赋能

2025-04-18

什么是RAG与为什么要RAG？

2025-04-18

Anthropic工程师揭秘高效AI Agent的三大秘诀

2025-04-17

Fireworks AI 分析

2025-04-17

文本向量的长度偏差及其在搜索中的影响

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网最全国内Agent平台深度测评：扣子、Dify、FastGPT，谁是你的Agent开发首选？

2024-10-27

一文彻底搞懂大模型 - RAG（检索、增强、生成）

2024-09-04

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

RAGFlow：基于OCR和文档解析的下一代 RAG 引擎

2024-05-05

RAG框架，都在这了!

2024-06-20

RAG 高效应用指南：Embedding 模型的选择和微调

2024-06-13

深入解析 Graph RAG：提升语言模型问答能力的创新策略

2024-07-09

微软开源的GraphRAG解读

2024-07-09

基于Llama 3 构建RAG语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成

2024-05-19

Prompt工程师必备：复旦重磅 | 最佳RAG实践长什么样的？

2024-07-07

大家都在问

什么是RAG与为什么要RAG？

2025-04-18

真实场景下落地RAG的十条建议及RAG中如何提升个性化？

2025-04-16

RAG系统中的“幕后英雄”：重排器如何提升信息检索的精准度？

2025-04-14

Dify 基础篇| 深度解读 RAG：为什么需要混合检索？

2025-04-13

OlmOCR如何成为搭建RAG 知识库的"智能中枢"？

2025-04-11

构建Agentic RAG 系统的方法有哪些？

2025-04-09

【AI知识点】什么是Agentic RAG？

2025-04-07

从“人工智障”到“真智能”：AI智能体如何突破最后一道技术壁垒？

2025-04-05

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB