我要投稿

聊聊Ollama如何离线部署GLM4-9b

发布日期：2024-07-31 07:20:55 浏览次数： 2607 作者：阿郎小哥的随笔驿站

概述

Ollama官方地址：ollama。

官方已经讲的很清楚，但是在离线环境下，官方的文档还是显得很麻烦，而且镜像库的拉取部署也没有讲的很清楚。

从目前，我个人接触的Agent、RAG等框架，现今实现更多的是如下的接入模式：对于自己玩还行，调用官方开放平台免费的api，申请api_key即可；但在内网要玩起来就很麻烦了，连不到网，而且本地部署的模型，框架又不支持引入（我个人遇到过这种情况，譬如LangChain）。

现在更多的推理部署框架开源起来，譬如Ollama，xinference，vllm等，这些推理部署框架接入原生LLM后，实现了高并发、高性能、快捷方便的部署方式；部署起来后，对外只需要提供一个API端口，甚至是UI界面即可由第三方框架接入。

Ollama离线部署

下载离线二进制包，ollama；注意，这是一个二进制文件，下载后，可以直接运行，不过先给一个权限。我的docker系统环境是ubuntu。新建一个文件夹，路径是/home/Ollama，将下载后的二进制包重命名为ollama，

chmod +x ./ollma

文件夹结构如下：然后执行ollama的命令，启动服务，可以先看看ollama支持的命令：启动即可，如下：在这里我强烈建议，把info那段输出好好的阅读下，这里面包含了ollama的环境变量信息。

列举ollama的模型列表，执行命令list即可，刚部署完是空的。

模型拉取

在内网环境下，服务器不能联网，那么就不能使用ollama run xxx一键拉取，虽然ollama官方提供了手动下载的方式，但我没有尝试，因为有点难，而且对我来说还是有点问题。最后我换了个思路：先用VM拉取模型到本地，然后再模型上传到内网服务器上，ollama一识别就可以了。正常来说应该是没问题的，因为用run命令也是下载到本地，然后Ollama识别，按道理只要下载到了指定目录，正常来说，不管是哪种方式（手动或是自动）应该是一致的。在VM上，指定模型的下载路径，如下：

OLLAMA_MODELS=/home/ollama_sitepackage/ ./ollama run glm4:9b

环境变量都已经在上面截图的info级别信息打印出来了，留心看看。

不过，最后总会有个报错，但可以忽略，因为模型已经下载了，可以在文件夹内查看，如下：然后将这整个文件夹都上传到内网。

查看list列表：

最终指定环境变量启动ollama：

OLLAMA_HOST=0.0.0.0:11434 OLLAMA_MODELS=/home/ollama_sitepackage/ ./ollama serve

完美运行：

总结

很多的框架都支持在线拉取，但由于实际环境的限制，不会有这么便捷；但不管是远程在线拉取还是离线下载上传，只要清楚其原理逻辑，顺着推演，都是可以做到的。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-11

一文读懂GPU最强辅助：HBM

2025-04-11

经验分享：从买DeepSeek一体机到落地应用场景，有多远的距离？

2025-04-10

借助Google Agentspace扩展企业搜索与智能体应用

2025-04-10

实测：阿里云百炼上线「全周期 MCP 服务」，AI 工具一站式托管

2025-04-10

企业IT规划与AI引入的节奏

2025-04-10

谷歌最新AI芯片打平英伟达B200，专为推理模型打造，最高配每秒42500000000000000000次浮点运算

2025-04-08

BrowserTools MCP：让AI驱动的浏览器交互更智能、更强大!

2025-04-08

Dia，目前最好的 AI 浏览器

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

大模型训练及推理【硬件选型指南】及 GPU 通识

2024-05-09

【不看后悔】一文梳理端侧模型和小模型

2024-07-07

华为昇腾910B与英伟达B200性能对比

2024-07-23

一文带你看懂英伟达A100、H100、A800、H800、H20系列

2025-02-12

NVIDIA消费级显卡4060/4090 AI训练能效比较

2024-07-01

私有化部署大模型非常重要环节：国产显卡和英伟达显卡到底该如何选择？

2024-06-23

对比A100和4090：两者的区别以及适用点

2024-06-24

手把手教你免费把AI大模型接入小米音箱，无需任何代码基础，小白级基础详细操作教程！

2024-10-20

小爱音箱大变身：接入 ChatGPT 和豆包，轻松打造专属 AI 语音助手！

2024-06-08

大家都在问

经验分享：从买DeepSeek一体机到落地应用场景，有多远的距离？

2025-04-11

理想车载大模型为什么不直接用deepseek？

2025-04-03

JetBrains Junie 内测体验，能否挑战 Cursor？

2025-03-30

Tavily MCP Server深度解析：如何用Cline打造智能搜索神器？

2025-03-28

Claude Desktop- AI大模型+MCP Server结合，能够带给你哪些无限可能？

2025-03-26

罗永浩的AI新战场，能否打破“行业冥灯”魔咒？

2025-03-13

Mac Studio 首发实测：10 万块的顶配 Mac，能跑满血版 DeepSeek 吗？

2025-03-12

【一文看懂】什么是端侧算力？

2025-03-10

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB