我要投稿

本地部署嵌入模型与重排模型指南

发布日期：2025-04-13 05:13:11 浏览次数： 1526 作者：一个杠精的自我修养

本地部署AI应用的一个重要原因就是要用RAG技术对知识库进行管理。

简单来说就是大语言模型的上下文通常只有16K-128K，也就是3万字到12万字，这对于知识库管理显然是不够，且过长的文本对于大模型来说存在注意力衰退问题。当然也有例外，比如谷歌的Gemini和海螺的Minimax，这两者的上下文分别达到了一百万和四百万。

RAG技术就是通过embedding模型对大文本进行向量化匹配问题进行初步筛选，再由reranke模型进行排序，再交由大语言模型进行处理。有兴趣的可以看：

[[RAG系列（一）：一文让你由浅到深搞懂RAG实现]]

[[为什么RAG一定需要Rerank？]]

本文以在MAC上部署Xinference+bge-m3/bge-reranker-v2-m3为例：

一、部署Conda

1. 下载Miniconda安装脚本

下载Mac系统的安装脚本：

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-MacOSX-arm64.sh

注1：如果出现zsh: command not found: wget时，执行brew install wget来安装 wget ，也可以拿报错日志问豆包注2：Intel芯片Mac或PC需访问Miniconda官网查询对应版本替换脚本文件名

安装wget，如果连homebrew也没有，问大模型如何安装homebrew

2. 运行安装脚本

bash Miniconda3-latest-MacOSX-arm64.sh

3. 刷新Shell环境

source ~/.bashrc
#刷新环境
~/miniconda3/bin/conda init zsh 
#激活conda ~换成实际路径

4. 验证安装

conda --version

二、使用Conda安装Xinference

1. 创建并激活虚拟环境

conda create --name xinference_env310 python=3.10
#创建虚拟环境
conda activate xinference_env310
#激活虚拟环境

2. 安装必要依赖

pip install torch
pip install "transformers>=4.36.0"
pip install "sentence-transformers>=3.2.0"

3. 硬件加速（可选）

# Apple M系列
CMAKE_ARGS="-DLLAMA_METAL=on" pip install llama-cpp-python
# 英伟达显卡
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python 
# AMD显卡
CMAKE_ARGS="-DLLAMA_HIPBLAS=on" pip install llama-cpp-python

4. 安装Xinference

pip install xinference

三、启动Xinference服务

# 前台运行
xinference-local --host 0.0.0.0 --port 9997
# 后台运行
nohup bash -c 'xinference-local --host 0.0.0.0 --port 9997' > xinference.log 2>&1 &

验证地址：`http://localhost:9997`

四、模型安装

通过WebUI下载：

推荐模型：bge-m3、bge-reranker-v2-m3
保持终端运行状态并下载（后台运行方式见下一章）

五、创建后台守护服务（macOS）

打开Automator → 新建"应用程序"
添加「运行Shell脚本」组件：

source /opt/anaconda3/etc/profile.d/conda.sh
conda activate xinference_env
nohup xinference-local -H 0.0.0.0 --port 9997 > /tmp/xinference.log 2>&1 &

保存为XinferenceDaemon.ap``p至/Applications
系统偏好设置 → 用户与群组 → 登录项中添加该应用

查看日志：

tail -f /tmp/xinference.log

六、dify调用配置

安装OpenAI-API-Compatible插件
设置 → 模型供应商：
Rerank/Embedding模块配置
填入对应的Xinference接口信息（如host.docker.internal:9997）

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-13

解决AI在HR应用中产生幻觉的几种方法

2025-04-13

快速构建和部署 RAGS：节省时间和最大化效率的逐步指南

2025-04-13

使用KAG+多模态RAG+智能体建造强大的AI推理机器人

2025-04-13

微软PIKE-RAG开源：解锁专业领域知识理解与推理，RAG新突破！

2025-04-13

本地化大模型接入RagFlow错误记录

2025-04-13

Dify 基础篇| 深度解读 RAG：为什么需要混合检索？

2025-04-12

还在靠 RAG 查文档？教你一招，AI 回答更靠谱！

2025-04-12

基于文本结构分块 - 文本分块（Text Splitting），RAG不可缺失的重要环节

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网最全国内Agent平台深度测评：扣子、Dify、FastGPT，谁是你的Agent开发首选？

2024-10-27

一文彻底搞懂大模型 - RAG（检索、增强、生成）

2024-09-04

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

RAGFlow：基于OCR和文档解析的下一代 RAG 引擎

2024-05-05

RAG框架，都在这了!

2024-06-20

RAG 高效应用指南：Embedding 模型的选择和微调

2024-06-13

深入解析 Graph RAG：提升语言模型问答能力的创新策略

2024-07-09

微软开源的GraphRAG解读

2024-07-09

基于Llama 3 构建RAG语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成

2024-05-19

Prompt工程师必备：复旦重磅 | 最佳RAG实践长什么样的？

2024-07-07

大家都在问

Dify 基础篇| 深度解读 RAG：为什么需要混合检索？

2025-04-13

OlmOCR如何成为搭建RAG 知识库的"智能中枢"？

2025-04-11

构建Agentic RAG 系统的方法有哪些？

2025-04-09

【AI知识点】什么是Agentic RAG？

2025-04-07

从“人工智障”到“真智能”：AI智能体如何突破最后一道技术壁垒？

2025-04-05

有Embedding模型不够，还需要Rerank模型？

2025-04-04

RAG如何选择最佳分块大小？

2025-04-03

回答我！会不会搭建 DeepSeek 版个人知识库？

2025-04-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

本地部署嵌入模型与重排模型指南

一、部署Conda

1. 下载Miniconda安装脚本

2. 运行安装脚本

3. 刷新Shell环境

4. 验证安装

二、使用Conda安装Xinference

1. 创建并激活虚拟环境

2. 安装必要依赖

3. 硬件加速（可选）

4. 安装Xinference

三、启动Xinference服务

验证地址：http://localhost:9997

四、模型安装

五、创建后台守护服务（macOS）

六、dify调用配置

验证地址：`http://localhost:9997`