微信扫码
添加专属顾问
我要投稿
掌握RAG技术,构建个性化聊天机器人,提升对话式AI性能。 核心内容: 1. RAG技术在对话式AI中的应用价值 2. 构建RAG聊天机器人的关键技术组件 3. 详细步骤:从安装LangChain到设置Fireworks AI模型
在 AI 领域,Retrieval-Augmented Generation(简称 RAG)已经成为生成式 AI 应用的重要技术,尤其是在对话式 AI 中。它结合了预训练大语言模型(LLM)如 OpenAI 的 GPT 和外部知识库(存储在向量数据库中,比如 Milvus 和 Zilliz Cloud),能够生成更加精准、上下文相关的回复,并且保持信息的实时性。
一个完整的 RAG 管道通常由四个基本组件组成:向量数据库、嵌入模型、LLM 和框架。
今天,我们就来一步步教大家如何用 Python 构建一个简单的 RAG 聊天机器人!如果你对 AI 技术感兴趣,或者正在寻找提升对话式 AI 性能的方法,这篇文章一定会让你收获满满。
在本次教程中,我们将使用以下工具和技术:
LangChain
可以帮助你轻松编排 LLM、向量存储、嵌入模型等之间的交互,从而简化 RAG 管道的集成过程。
Milvus
Milvus 是一款开源的向量数据库,专为高效存储、索引和搜索大规模向量嵌入而优化,非常适合 RAG、语义搜索和推荐系统等应用场景。当然,如果你不想自己管理基础设施,也可以选择 Zilliz Cloud,这是一个基于 Milvus 构建的全托管向量数据库服务,还提供免费套餐,支持多达 100 万个向量。
Fireworks AI Llama 3.1 8B Instruct
这个模型拥有 80 亿参数,擅长通过高级推理能力提供精确的指令和指导。无论是教育工具、虚拟助手还是互动内容生成,它都能生成连贯且多领域的响应,特别适合需要个性化交互的场景。
Cohere embed-multilingual-v2.0
这款嵌入模型专注于生成高质量的多语言嵌入,能够有效实现跨语言理解和检索。它的优势在于捕捉多种语言中的语义关系,非常适合多语言搜索、推荐系统和全球内容分析等应用。
首先,我们需要安装 LangChain 相关依赖。打开你的终端,输入以下命令:
%pip install --quiet --upgrade langchain-text-splitters langchain-community langgraph
接下来,我们安装 Fireworks AI 的相关依赖。执行以下代码:
pip install -qU "langchain[fireworks]"
import getpass
import os
if not os.environ.get("FIREWORKS_API_KEY"):
os.environ["FIREWORKS_API_KEY"] = getpass.getpass("Enter API key for Fireworks AI: ")
from langchain.chat_models import init_chat_model
llm = init_chat_model("accounts/fireworks/models/llama-v3p1-8b-instruct", model_provider="fireworks")
注意:你需要提前获取 Fireworks AI 的 API 密钥哦!
推荐大家去用硅基流动的API,Qwen 7B是免费的~
接着,我们安装 Cohere 的嵌入模型依赖。运行以下代码:
pip install -qU langchain-cohere
import getpass
import os
if not os.environ.get("COHERE_API_KEY"):
os.environ["COHERE_API_KEY"] = getpass.getpass("Enter API key for Cohere: ")
from langchain_cohere import CohereEmbeddings
embeddings = CohereEmbeddings(model="embed-multilingual-v2.0")
现在,我们来安装 Milvus 向量数据库。执行以下代码:
pip install -qU langchain-milvus
from langchain_milvus import Milvus
vector_store = Milvus(embedding_function=embeddings)
到这里,所有组件都准备好了,接下来我们开始构建聊天机器人!我们会用 Milvus 的介绍文档 作为私有知识库。当然,你也可以替换为你自己的数据集,定制属于你的 RAG 聊天机器人。
以下是完整的代码实现:
import bs4
from langchain import hub
from langchain_community.document_loaders import WebBaseLoader
from langchain_core.documents import Document
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langgraph.graph import START, StateGraph
from typing_extensions import List, TypedDict
# 加载并切分博客内容
loader = WebBaseLoader(
web_paths=("https://milvus.io/docs/overview.md",),
bs_kwargs=dict(
parse_only=bs4.SoupStrainer(
class_=("doc-style doc-post-content")
)
),
)
docs = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
all_splits = text_splitter.split_documents(docs)
# 索引切分后的文档
_ = vector_store.add_documents(documents=all_splits)
# 定义问答提示模板
prompt = hub.pull("rlm/rag-prompt")
# 定义应用状态
class State(TypedDict):
question: str
context: List[Document]
answer: str
# 定义应用步骤
def retrieve(state: State):
retrieved_docs = vector_store.similarity_search(state["question"])
return {"context": retrieved_docs}
def generate(state: State):
docs_content = "nn".join(doc.page_content for doc in state["context"])
messages = prompt.invoke({"question": state["question"], "context": docs_content})
response = llm.invoke(messages)
return {"answer": response.content}
# 编译应用并测试
graph_builder = StateGraph(State).add_sequence([retrieve, generate])
graph_builder.add_edge(START, "retrieve")
graph = graph_builder.compile()
好啦,聊天机器人已经搭建完成!让我们来测试一下吧:
response = graph.invoke({"question": "Milvus 支持哪些数据类型?"})
print(response["answer"])
Milvus 支持多种数据类型,包括稀疏向量、二进制向量、JSON 和数组。此外,它还能处理常见的数值和字符类型,适用于不同的数据建模需求。这使得用户可以高效地管理非结构化或多模态数据。
当我们构建 RAG 系统时,优化是确保性能和效率的关键。下面是一些针对各个组件的优化建议,帮助你打造更智能、更快、更灵敏的 RAG 应用。
你可以通过减少冗余操作来优化 LangChain,比如合理设计链和代理的结构,利用缓存避免重复计算。模块化设计也能让你灵活更换模型或数据库,从而快速扩展系统。
Milvus 是一个高效的向量数据库,优化它的性能可以从以下几个方面入手:
这款模型性价比很高,适合中等复杂度的 RAG 应用。你可以通过限制上下文长度、调整温度参数(建议 0.1-0.3)、以及缓存高频查询来优化其性能。
这个多语言嵌入模型非常适合跨语言 RAG 场景。你可以通过预处理文本去除噪声、压缩嵌入、以及批处理操作来提升效率。
- END -53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-29
RAGFlow自动化脚本套件:自定义解析+回答质量评估+参数自动调优
2025-03-29
万字长文:说清MCP的前世今生+RAGFlow整合应用示例
2025-03-29
三种RAG部署方案:自购GPU硬件 vs 大模型一体机 vs 云端GPU
2025-03-29
RAG维保案例分享:如何实现"文+图"的答案呈现
2025-03-29
RAG检索不过关?试试这些优化策略,精准度飙升!
2025-03-29
RAG检索全攻略:Embedding与Rerank模型的终极指南
2025-03-29
5.6K+ Star!R2R:一个支持RAG的AI检索系统
2025-03-29
这就是AI智能体的记忆机制原理
2024-10-27
2024-09-04
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-03-28
2025-03-27
2025-03-27
2025-03-25
2025-03-19
2025-03-18
2025-03-18
2025-03-15