我要投稿

内网服务器离线安装部署 DeepSeek

发布日期：2025-03-16 13:03:02 浏览次数： 1681 作者：OhCode

安装 Ollama

Ollama 官网：https://ollama.com/

1. 安装

curl -fsSL https://ollama.com/install.sh | sh

二进制文件安装：使用 curl 命令下载或者直接在 Github 上下载二进制文件

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

2. 服务配置

2.1 启动服务

ollama serve

打开另外一个终端，验证 ollama 运行状态。

ollama -v

2.2 设置开机自启动服务

创建服务文件 /etc/systemd/system/ollama.service

[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama 
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=$PATH"

[Install]
WantedBy=default.target

服务文件解释：

Description=Ollama Service描述服务的名称和用途，表明这是一个用于运行 Ollama 应用的服务。
After=network-online.target指定服务应在系统网络完全就绪（即 network-online.target 达成）之后启动。确保服务依赖的网络功能可用。
ExecStart=/usr/bin/ollama serve定义启动服务时执行的命令：运行 /usr/bin/ollama 程序的 serve 子命令（通常用于启动服务端）。
User=ollama 和 Group=ollama服务以 ollama 用户和组的身份运行，避免使用 root 权限，提高安全性。需确保系统中已存在该用户和组，否则服务会启动失败。
Restart=always服务无论因何原因退出（包括正常退出、异常崩溃、被杀死等），都会自动重启。
RestartSec=3重启前等待 3 秒，防止频繁崩溃导致系统负载过高。
Environment="PATH=$PATH"显式设置环境变量 PATH，继承当前 systemd 环境中的 PATH 值，确保服务能找到所需命令路径。需注意实际环境可能与 Shell 中的 PATH 不同。
WantedBy=default.target当通过 systemctl enable 启用服务时，该服务会关联到 default.target（系统默认启动目标，通常是图形界面或多用户模式）。系统启动时，服务会自动运行。

2.3 启动服务并设置开机自启动

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama    // 启动 ollama
sudo systemctl status ollama   // 查看 ollama 状态

2.4 自定义安装，配置环境变量

编译配置文件shell

sudo systemctl edit ollama

也可以手动创建 /etc/systemd/system/ollama.service.d/override.conf添加配置

[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_MODELS=/home/xxxx/.ollama/models"
Environment="OLLAMA_KEEP_ALIVE=-1"

常见环境变量

环境变量	说明
`OLLAMA_DEBUG`	显示额外的调试信息（例如 `OLLAMA_DEBUG=1`）
`OLLAMA_HOST`	指定 Ollama 服务器的 IP 地址（默认 `127.0.0.1:11434`）
`OLLAMA_KEEP_ALIVE`	模型在内存中保持加载状态的持续时间（默认 `"5m"`）
`OLLAMA_MAX_LOADED_MODELS`	每个 GPU 最大允许加载的模型数量
`OLLAMA_MAX_QUEUE`	最大队列请求数
`OLLAMA_MODELS`	模型存储目录的路径
`OLLAMA_NUM_PARALLEL`	最大并行请求数
`OLLAMA_NOPRUNE`	启动时不清理模型缓存
`OLLAMA_ORIGINS`	允许的跨域来源列表（逗号分隔）
`OLLAMA_SCHED_SPREAD`	始终在所有 GPU 上调度模型
`OLLAMA_FLASH_ATTENTION`	启用 Flash Attention 加速
`OLLAMA_KV_CACHE_TYPE`	K/V 缓存的量化类型（默认 `f16`）
`OLLAMA_LLM_LIBRARY`	手动指定 LLM 库以绕过自动检测
`OLLAMA_GPU_OVERHEAD`	为每个 GPU 预留的显存空间（单位：字节）
`OLLAMA_LOAD_TIMEOUT`	模型加载超时时间（默认 `"5m"`）

2.5 ollama 命令

ollama serve   #启动 ollama  
ollama create  #从模型文件创建模型  
ollama show    #显示模型信息  
ollama run     #运行模型  
ollama pull    #拉取模型  
ollama push    #推送模型  
ollama list    #列出模型  
ollama cp      #复制模型  
ollama rm      #删除模型  
ollama help    #获取有关任何命令的帮助信息

2.6 查看日志

journalctl -e -u ollama

2.7 卸载

停止并删除 ollama 服务

sudo systemctl stop ollama
sudo systemctl disable ollama
sudo rm /etc/systemd/system/ollama.service

移除 ollama 二进制文件 (either /usr/local/bin, /usr/bin, or /bin):

sudo rm $(which ollama)

删除模型和用户、用户组

sudo rm -r /usr/share/ollama
sudo userdel ollama # 若为 ollama 专门添加了用户
sudo groupdel ollama # 若为 ollama 专门添加了用户组

安装 DeepSeek-R1

1. 在线安装

ollama run deepseek-r1

2. 离线安装

使用一台联网的电脑执行 ollama run deepseek-r1:1.5b 指令，下载完成后找到模型所在位置。下载过程若出现速度慢的情况，可以结束指令后重新执行，会自动断点续传，这一步操作主要是方便找到更快的下载链接。

默认存放位置：

Windows	C:\Users%username%\.ollama\models
MacOS	~/.ollama/models
Linux	/usr/share/ollama/.ollama/model 或 /home/%username%/.ollama/model

也可以尝试搜索拉取模型时产生的哈希字符，以便找到模型位置。

2.1 保存 gguf 文件和 Modelfile

按照时间排序，找到最大的那个文件，就是gguf格式的模型，复制出来，改名为deepseek-r1-1.5b-local.gguf；

执行命令 ollama show deepseek-r1:1.5b --modelfile > Modelfile得到模型对应的 Modelfile文件并保存。关键的两个文件已获取：

deepseek-r1-1.5b-local.gguf
Modelfile

2.2 内网部署模型

上传 gguf 文件和 Modelfile 文件至已安装 ollama 服务的内网服务器。修改 Modelfile第五行的 FROM，将模型路径修改为模型的真实路径，例如这里是./deepseek-r1-1.5b-local.gguf。

ollama create deepseek-r1-1.5b-local -f Modelfile

导入成功后，接下来的使用和外网一模一样，输入ollama list命令可以看到导入的模型。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-15

买最贵的GPU，挨最毒的打！

2025-04-14

大语言模型的训练后量化算法综述 | 得物技术

2025-04-14

AI Agent工程的6个要素

2025-04-14

DeepSeek|手把手教你完成AI投喂数据训练

2025-04-14

大模型量化方式详解及建议

2025-04-14

驯服AI的艺术：参数调整完全手册

2025-04-13

Ollama部署大模型以及配置外部访问

2025-04-13

企业私有化 LLM 应用开发路径：从技术跟风到业务驱动

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

DeepSeek R1 671B 完整版本地部署教程来了！！！

2025-02-04

太爽了！o1 现在可以天天享用了

2024-09-18

万字综述 10+ 种 LLM 投机采样推理加速方案

2024-07-11

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-07-09

FP8 低精度训练：Transformer Engine 简析

2024-07-11

彻底理解系列之：FP32、FP16、TF32、BF16、混合精度

2024-07-26

别被Deepseek低成本冲昏头！本地化部署后续的“甜蜜陷阱”，你真能扛住吗？

2025-02-05

ollama 部署 deepseek-r1 70B 模型完整指南

2025-01-27

o3-mini 完全指南：一个被 DeepSeek 破大防的模型

2025-02-01

大家都在问

RAGFlow vs Dify, 商业化落地场景选哪个？

2025-04-01

如何利用Dify轻松构建你的专属语料库？

2025-03-31

从 0 到 1，Agentic Ops 如何打造企业级 AI 生产力？

2025-03-20

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

部署DeepSeek的4条路，企业级客户到底该咋走？

2025-03-16

谷歌Gemma 3 27b 到底能不能打，写个游戏测试下？

2025-03-13

强化学习(RL)是什么? 它和微调有什么区别?

2025-03-13

从DeepSeek到Manus：如何实现本地LLM微调+联网开发？

2025-03-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB