我要投稿

干货分享!如何部署多个GGUF的大语言模型，Windows平台实践分享

发布日期：2024-09-16 21:30:16 浏览次数： 5134

作者：深入LLM Agent应用开发

微信搜一搜，关注“深入LLM Agent应用开发”

最近在Windows平台部署大语言模型，这次部署的是通义千问72B FP16量化和Q8量化，有点经验分享。上文《如何使用vLLM部署DeepSeek V2 Lite模型》说到，目前大概有几类部署框架。

vLLM是一个快速且易于使用的用于大语言模型（LLM）推理和服务的库。
SGLang是一个用于大语言模型和视觉语言模型的快速服务框架。
Xinference各种模型都支持，大语言模型，嵌入模型，SD模型，Audio模型。。。
Ollama快速简洁的大语言推理入门首选，支持GGUF和SafeTensor格式。
LM Studio桌面App，支持大语言模型和嵌入模型，只支持GGUF格式。

个人认为服务器首选部署平台，还是vLLM、SGLang和Xinference。Ollama和LM Studio还是更偏向于桌面应用。本次尝试在Windows平台部署通义千问72B FP16量化版本。我了解到

vLLM和SGlang不支持Windows。
Xinference支持Windows，但是其大语言模型的推理引擎也只能用llama.cpp或者Transformer，我们知道Transformer都是默认加载全精度的，所需显存较大。
LM Studio支持Windows，但是每次加载模型都要重新配置一遍参数，而且默认是只Offload 20%的计算到GPU，所以每次都得去调到最大，性能也不稳定。还有一个原因，每次加载之后才能修改Offload到GPU为最大，然后每次相当于要加载两遍，跑了好多次之后，nvidia-smi提示找不到GPU了，要重启电脑。
Ollama支持Windows，但是默认的Qwen2 72B是4 bit量化版本。

所以最终折腾下来，咱们还是得用Ollama。但Ollama默认的是4bit版本，即使要创建Modelfile，咱们还得考虑多个GGUF模型文件问题。

1. Ollama 运行

Ollama安装参考官网安装教程^[1]即可。

Ollama默认部署通义千问72B 4bit量化版本，只需要根据Ollama上Qwen2的模型介绍页^[2]运行这条命令即可。

ollama run qwen2:72b

但如果你想要部署FP16量化或者Q8量化，怎么办？阿里官方在modelscope^[3]上倒是提供了GGUF量化版本，按照上篇文章《如何使用vLLM部署DeepSeek V2 Lite模型》下载指定的模型。

既然要使用Ollama跑自定义模型，那么按照Ollama官方说明^[4]，我们需要编写一个Modelfile，类似于这样。

FROM /path/to/file.gguf

Qwen2官方也给出了如下7B的Modelfile，但咱们有多个GGUF文件，怎么搞？

FROM qwen2-7b-instruct-q5_0.gguf

# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER repeat_penalty 1.05
PARAMETER top_k 20

TEMPLATE """{{ if and .First .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
{{ .Response }}"""

# set the system message
SYSTEM """
You are a helpful assistant.
"""

2. 合并GGUF模型文件

Ollama目前还不支持引入多个GGUF文件，所以我们需要llama.cpp帮助。Llama.cpp的安装可以参考我之前的文章《喂饭教程！使用Llama.cpp在MAC M1上安装私有大语言模型LLM通义千问Qwen 1.5-7B》，然后我们使用llama.cpp的llama-gguf-split。

./llama-gguf-split --help
usage: ./llama-gguf-split [options] GGUF_IN GGUF_OUT
Apply a GGUF operation on IN to OUT.
options:
-h, --help show this help message and exit
--version show version and build info
--split split GGUF to multiple GGUF (enabled by default)
--merge merge multiple GGUF to a single GGUF
--split-max-tensors max tensors in each split (default: 128)
--split-max-size N(M|G) max size per split
--no-tensor-first-split do not add tensors to the first split (disabled by default)
--dry-run only print out a split plan and exit, without writing any new files

这里咱们先合并Q8量化的两个GGUF文件，然后生成qwen2-72b-instruct-q8_0.gguf。

./llama-gguf-split --merge ./qwen2-72b-instruct-q8_0-00001-of-00002.gguf ./qwen2-72b-instruct-q8_0-00002-of-00002.gguf ./qwen2-72b-instruct-q8_0.gguf

接下来修改Modelfile。

FROM /path/to/your/qwen2-72b-instruct-q8_0.gguf

# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER repeat_penalty 1.05
PARAMETER top_k 20

TEMPLATE """{{ if and .First .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
{{ .Response }}"""

# set the system message
SYSTEM """
You are a helpful assistant.
"""

Modelfile已建好，然后开始创建模型。

ollama create qwen2_72b_q8 -f Modelfile

运行

ollama run qwen2_72b_q8

总结

本文在尝试了各种部署大模型部署框架后，最终还是回到Ollama。同时通过采用LLama.cpp的合并GGUF命令，将Qwen2 72B的多个GGUF模型文件合并为一个GGUF，最后通过创建Modelfile完成Ollama的模型创建和运行。希望本文对你有所帮助。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-09

大模型微调的数据成本到底有多吓人？丨实战笔记

2025-07-09

AI学会反思后智商飙升，分享我训练AI干活的3个方法

2025-07-07

如何让 AI 真正帮你写老系统里的代码

2025-07-03

模型微调是啥？有哪些方法？小白也能看懂的通俗讲解

2025-07-01

spaCy中文分句模型微调秘籍，从数据准备到模型评测，一学就会！

2025-06-26

深入理解大模型微调，LoRA超参数指南

2025-06-21

【大模型微调】5.调参经验总结与显存占用因素探究

2025-06-20

大模型微调，为什么99%的企业都不应该碰这个坑？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Qwen3小模型实测：从4B到30B，到底哪个能用MCP和Obsidian顺畅对话？

2025-04-30

LoRA 与QLoRA区别

2025-04-19

2025 AI驱动研发工具对比丨独立测评

2025-04-16

AI王炸：MCP服务端客户端的完整实现

2025-04-16

MCP vs Function Calling，该如何选？

2025-04-20

DeepSeek V3 0526更新？实测代码能力已经提升，附实测案例。

2025-05-26

国内企业应用AI大模型赋能软件测试的落地实践案例

2025-04-20

低延迟小智AI服务端搭建-ASR篇（续）：CPU可跑

2025-04-19

Ollama环境变量配置全攻略：从基础设置到场景化调优

2025-05-07

2025-05-21

大家都在问

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

软件公司如何为AI的下半场做准备？

2025-05-10

LoRA为何成为大模型微调不可或缺的核心技术？

2025-05-07

为什么AI多轮对话总是那么傻？

2025-05-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB