我要投稿

别再用PostgreSQL了,Milvus才是多语言RAG的最佳搭档

发布日期：2024-12-04 11:49:10 浏览次数： 2373

作者：Zilliz

微信搜一搜，关注“Zilliz”

你有没有想过,为什么我们的大脑能够轻松地理解"一朵花"、"a flower"和"一輪の花"其实指的是同一个事物?

多语言 RAG 系统就像是在模仿人类大脑的这种神奇能力。它通过先进的向量技术,将不同语言中表达相同含义的文字转化为统一的"数字密码"，让机器也能具备类似人类的跨语言理解能力。

如果说传统的翻译系统是在文字"穿新衣"，那么多语言 RAG 则是在读懂文字的"灵魂"。它不会被表面的语言差异所迷惑,而是直击问题的本质。这种深层次的语义理解能力可以帮助我们轻松实现跨语言知识检索。

本文将通过实践案例，深入探讨多语言 RAG 系统的工作原理和应用场景。我们将以 FastGPT 为基础，结合 Milvus 向量数据库和 m3e 多语言 Embedding 模型，展示如何构建一个能够理解和处理中英日三种语言的智能问答系统。FastGPT 作为一个强大的 RAG 应用开发平台，为我们提供了便捷的多语言知识库构建和问答系统部署能力。

01.

多语言 RAG 技术原理解析

1.1 知识检索流程

多语言 RAG 的知识检索过程其实很直观。当用户提出问题时,系统会先将问题转换为一串数字编码。这些编码就像是问题的"数字指纹",能够精准地反映问题的语义特征。系统随后会在知识库中寻找与这个"指纹"最相近的内容。有趣的是,这个过程完全不受语言的限制 - 无论是中文、英文还是日文的知识,只要意思相近,都能被准确找到。

1.2 语义匹配机制

语义匹配不仅仅是简单的文字对比,而是要真正理解内容的含义。举个例子,当你问"地球是什么形状"时,系统不会局限于寻找完全一样的问题。它会理解你想了解地球的形状特征,因此也会找到"地球是一个略扁的球体"或"地球呈类椭球形"这样的相关描述。这种深入理解语义的能力,让检索结果更加准确和全面。

1.3 多语言上下文理解

在跨语言交流中,理解上下文是很重要的。不同语言往往有其独特的表达方式和文化内涵。比如中文里"打草惊蛇"这个成语,在英语中可能用完全不同的表达方式来传达类似的含义。系统需要理解这些跨语言表达背后的实际含义,确保能够准确匹配相关的概念。

02.

m3e 多语言 Embedding 模型原理

2.1 m3e 模型原理

m3e 模型是一个专门为多语言场景优化的 Embedding 模型，它采用了创新的 Transformer 编码器架构。在模型内部，它使用了 12 层 Transformer 结构，每层都包含多头注意力机制和前馈神经网络。这种深层次的架构设计让模型能够更好地理解和编码不同语言的语义特征。

2.2 多语言语义编码策略

m3e 模型采用统一语义空间映射的方法来处理多语言文本。在预训练阶段，模型会同时学习多种语言的语料，让表达相同含义的不同语言词汇在向量空间中更加接近。举个简单的例子，"苹果"、"apple" 和 "りんご" 这三个词虽然来自不同语言，但因为表达同一个概念，它们在向量空间中的位置会非常接近。

2.3 m3e 性能特点

m3e 模型在多语言语义相似度任务中展现出了优秀的性能。它能够处理超过 100 种语言的文本，生成 768 维的向量表示，准确地捕捉不同语言之间的语义联系。即便是面对训练数据中没有出现过的新语言，模型依然能够给出不错的编码效果，这种零样本迁移能力让它在实际应用中更加灵活。

2.4 语义编码与向量映射

在预训练阶段，m3e 通过对大量多语言文本进行联合训练，逐步构建起一个统一的语义空间。这个过程中使用了对比学习的方法，将语义相近的内容（无论是什么语言）都映射到向量空间中相邻的区域，从而建立起跨语言的语义联系。

在具体实现上，模型会先用子词标记化技术处理输入文本，这样可以更好地应对生僻词。然后通过位置编码和注意力机制来理解文本的上下文关系，最终输出一个包含丰富语义信息的 768 维向量。

当需要判断不同语言文本之间的语义关联时，系统会计算它们对应向量之间的余弦相似度或欧氏距离。这种方法让我们能够量化评估不同语言内容之间的语义相似程度，为跨语言检索和匹配提供了可靠的技术基础。

03.

实践案例：多语言语义映射

通过这个实践案例，我们可以直观地理解多语言 Embedding 模型是如何将不同语言的文本转换为统一语义空间的向量，并计算它们之间的语义相似度。这种技术突破了语言的界限，实现了跨语言的语义理解和匹配。

from sentence_transformers import SentenceTransformer

# 加载多语言Embedding模型
model = SentenceTransformer('intfloat/m3e')

# 不同语言的文本示例
sentences_zh = ["人工智能是未来"]
sentences_en = ["AI is the future"]
sentences_jp = ["人工知能は未来です"]

# 生成统一语义空间的向量
embeddings_zh = model.encode(sentences_zh)
embeddings_en = model.encode(sentences_en)
embeddings_jp = model.encode(sentences_jp)

# 计算语义相似度
from scipy.spatial.distance import cosine
similarity = 1 - cosine(embeddings_zh[0], embeddings_en[0])

04.

向量数据库 Milvus 的技术支撑

4.1 向量索引与检索原理

Milvus 作为一款高性能向量数据库，采用了分布式架构设计。

在高维向量存储方面，它支持浮点型和二进制向量，通过分片存储和内存/磁盘混合管理提升性能。在相似度搜索上，Milvus 实现了多种索引类型 (IVF_FLAT、HNSW 等) 和度量方式 (欧氏距离、内积等)，可根据场景灵活选择。同时通过数据压缩、并行计算、缓存机制等多重优化手段，确保在海量数据下依然保持高效的检索性能。

4.2 多语言场景的存储架构

向量数据组织

Milvus 采用 Collection 分区存储策略，将不同语种的向量数据组织到独立集合中。通过 Collection Alias 机制实现数据的动态更新和平滑切换，保证系统稳定性。每个 Collection 内部采用分片存储，支持数据的分布式部署。

跨语言检索优化

系统集成了 IVF_PQ 等高效索引算法，结合内积 (IP) 相似度计算方法优化检索性能。通过数据预处理和缓存机制，显著提升跨语言检索效率。支持实时数据更新和增量索引构建。

扩展性设计

基于 Kubernetes 的分布式架构，支持系统的水平扩展。根据数据规模动态调整节点数量，实现自动化运维。提供丰富的 SDK 接口支持多语言应用系统对接，具备良好的可扩展性。

05.

FastGPT - 开源的大语言模型应用开发平台

FastGPT 是一个开源的大语言模型应用开发平台，它让用户能够快速搭建基于 AI 的知识库和智能问答系统。通过简单的可视化界面，用户可以轻松上传文档、构建知识库、设计对话流程，无需编程即可打造专属的 AI 应用。

FastGPT 支持多种文档格式导入，内置了强大的知识库管理功能，并提供灵活的工作流编排能力，是一个功能完备、易用性强的 AI 应用开发平台。

无论是构建客服机器人、知识问答系统，还是专业领域的智能助手，FastGPT 都能帮助用户快速实现。

06.

实践：多语言 RAG 知识系统构建

在进入实践环节之前，我们需要明确这个部署的重要意义。构建一个多语言 RAG 知识系统不仅能帮助我们打破语言壁垒，实现跨语言的知识检索和问答，更能让我们深入理解 RAG 技术在实际应用中的各个环节。通过 FastGPT、Milvus 和 Ollama 这样的开源工具组合，我们可以快速搭建一个性能可靠、成本可控的多语言知识服务系统。

6.1 环境准备

6.2 安装配置选型

6.3 安装 Ollama 并准备模型

登录 Ollama 官网复制安装脚本并执行

[root@ollama ~]# curl -fsSL https://ollama.com/install.sh | sh

[root@ollama ~]# ollama -v
ollama version is 0.4.2

下载并测试 llama3.1:8b 模型

[root@ollama ~]# ollama run llama3.1:8b

运行 M3e 向量模型

[root@ollama ~]# docker run -d --name m3e -p 6008:6008 --gpus all registry.cn-hangzhou.aliyuncs.com/fastgpt_docker/m3e-large-api

6.4 安装 FastGPT 应用平台

确认环境是否正确

[root@fastgpt ~]# git clone https://github.com/labring/FastGPT.git

下载 FastGPT 项目

[root@fastgpt ~]# ls /root/FastGPT/projects/app/data/config.json

路径及文件说明：

1.config 文件是作用于对模型的参数、模型添加删除

[root@fastgpt ~]# ls /root/FastGPT/projects/app/data/config.json

2.docker-compose-milvus.yaml 文件是启动 FastGPT 及参数修改调整的

[root@fastgpt ~]# ls /root/FastGPT/files/docker docker-compose-milvus.yaml

修改 config 配置指定测试模型

指定 LLM 模型：llama3.1:8b

指定 Vector 模型：M3e

首次启动 FastGPT 项目

[root@fastgpt ~]# docker-compose docker-compose-milvus.yaml up -d

访问 Oneapi 对接模型

6.5 添加配置模型

登录 Oneapi 新建密钥

添加 llama3.1:8b&m3e 渠道

修改 FastGPT 的 yaml

重启 FastGPT 服务登录测试

07.

多语言 RAG 实践验证

验证原则：以最小化验证多语言效果原则进行，检索内容准确性不做保证。

数据集：采用多语言平行语料库、专业知识库、问答

测试场景：使用中英日三中语言进行问答

7.1 新建知识库

数据集来源于 Milvus 官方文档

新建知识库并上传

7.2 不同语言问答测试

设计一个简单的提示词

为了确保多语言 RAG 系统能够统一、规范地处理不同语言的问题，我们需要设计一个明确的提示词。这个提示词的主要目的是让 AI 助手在处理多语言问题时保持一致的输出格式，避免语言混乱，同时确保回答的专业性和准确性。通过统一使用中文回答，可以降低系统复杂度，提高响应效率，并为中文用户提供更好的使用体验。

你是一个专门解答Milvus相关问题的AI助手。请严格遵循以下规则：

1. 语言要求：
- 无论收到什么语言的问题，始终使用中文回答
- 中文问题 → 中文回答
- 英文问题 → 中文回答
- 日文问题 → 中文回答

2. 回答要求：
- 直接给出中文答案
- 使用简洁清晰的语言
- 只使用知识库中的信息
- 保持专业术语准确性

3. 注意事项：
- 理解三种语言的问题（中文、英文、日文）
- 统一用中文回答所有问题
- 不需要提供其他语言的翻译
- 不需要标注信息来源

重要：所有回答必须用中文，不论问题是中文、英文还是日文！