我要投稿

GGUF文件详解

发布日期：2025-03-24 21:21:21 浏览次数： 1660 作者：Python伊甸园

目前，市面上有各种不同的大模型部署工具，比如ollama、vllm、sglang等，但是很多人还并不了解大模型文件格式之间的区别，本次我们来聊一下ollama专用的GGUF格式。

1、什么是GGUF

GGUF 格式的全名为（GPT-Generated Unified Format），由llama.cpp创始人Georgi Gerganov设计的二进制文件格式，专为高效存储和加载大模型优化。

简单来说就是，模型在训练完成之后需要对架构、参数等进行存储，用的格式是GGUF。

以下为GGUF文件示例：

2、为什么采用GGUF

在传统的大模型开发中多数使用 PyTorch 进行开发，但在部署时会面临依赖包太多、版本管理等问题，因此才有了GGUF格式（GGUF是长时间优化后的产物）。

GGUF文件主要是因为它针对大模型的存储、加载和部署场景进行了多项优化，解决了传统格式的痛点。包含了所有的模型信息（如元数据、张量数据），同时支持跨平台使用，无需依赖外部文件或复杂配置。

3、GGUF的特点

3.1 高效性

GGUF作为一种二进制格式，相较于文本格式的文件，可以更快地被读取和解析。二进制文件通常更紧凑，减少了读取和解析时所需的I/O操作和处理时间。

3.2 量化支持

GGUF支持多种量化类型（如Q8_K、Q6_K等），通过降低模型精度减少文件大小，适用于不同硬件资源场景。

GGUF支持多种量化类型，每种类型都有其特定的位宽和量化方法，以满足不同的性能和精度需求。以下是一些常见的量化类型：

4、GGUF的适用框架

主要用于llama.cpp项目，支持GPU、CPU推理。

常见的llama.cpp项目有ollama、LMStudio、LocalAI等。

5、GGUF压缩计算示例

以ollama平台为例，其默认下载的模型通常是 4-bit 量化，也就是 Q4_0 的压缩方式。

以DeepSeek-R1:32B模型为例。B指参数量为10亿，那么32B就是存在320亿模型参数。

那么原始模型大小的计算如下：

（1）确定参数数量

模型有 32×10**9个参数。

（2）确定每个参数的精度

原始精度为 FP16，每个参数占用 16 位或 2 字节

（3）计算总字节数

总字节数=32×10**9×2=64×10**9字节=64GB

以4比特量化后模型大小的计算如下：

（1）理解4位量化

4位量化意味着每个参数用 4 位表示

（2）计算量化后的总位数

总位数（量化后）=32×10**9×4=128×10**9位

（3）将位转换为字节

总字节数（量化后）=128×10**9/8=16×10**9字节=16GB

但是，通过实际加载模型可以看到，其占用的显存近22G。

主要原因在于：

（1）量化元数据

量化过程中，每个参数组的权重需要存储额外的元数据（如缩放因子和零点），用于反量化计算。

例如，若采用分组量化（Group-wise Quantization），每64个参数为一组，每组需存储1个FP16缩放因子（2字节）和1个零点（1字节）。

对于32B参数（320亿个参数），分组数 = 32B / 64 = 5亿组 → 元数据总大小 = 5亿组 × (2+1)字节 ≈ 1.5GB

（2）中间激活值（Activations）

推理过程中，每层输出的中间结果（激活值）需暂存在显存中。

以32B模型为例，处理2048 tokens的序列时，激活值占用约3-5GB显存（具体与模型架构和序列长度强相关）。

（3）推理框架的额外开销

硬件（如GPU）要求内存地址按特定字节对齐（如128位对齐），导致实际分配的显存可能略大于理论值。

某些框架会预分配缓存空间以加速计算（如KV Cache），进一步增加显存占用。

总之，对于ollama拉取的32B模型来说，24G显存是刚刚好。

6、离线加载GGUF模型

我们以“DeepSeek-R1-Distill-Qwen-7B-Q8_0.gguf”部署为例：

1、创建一个Modelfile文件，文件内容如下。

FROM C:/Users/admin/.ollama/models/DeepSeek-R1-Distill-Qwen-7B-GGUF/DeepSeek-R1-Distill-Qwen-7B-Q8_0.gguf
PARAMETER temperature 0.6SYSTEM """你是乐于助人的帮手，擅长中文多轮对话，回答需严谨且符合事实。>"""

其中FROM为量化的gguf模型，根据自己电脑上模型位置进行修改。

2、引入离线模型

打开终端，运行以下命令创建模型：

ollama create model-name -f Modelfile

其中model-name为自己命名，以下为命名示例：

ollama create deepseek-r1-distill-qwen-7b -f ./Modelfile

3、离线模型测试

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-19

Exa：给 AI Agent 的 “Bing API”

2025-04-19

Chrome过时了，AI Agent需要自己的浏览器。

2025-04-19

n8n + mcp王炸组合：5个节点轻松搭建一个AI工作流

2025-04-18

火山引擎OS Agent解决方案、豆包1.5·UI-TARS模型发布

2025-04-18

前沿导读 | 基于大模型智能体的出行行为模拟

2025-04-18

大概念模型（Large Concept Models）会取代提示工程吗？

2025-04-18

AI 重要概念科普与热门技术解析

2025-04-18

我对于AI领域商业模式的思考

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

大概念模型（Large Concept Models）会取代提示工程吗？

2025-04-18

LLM中的Token和Embedding到底是啥？

2025-04-16

探秘 LLM Agents：ReAct 框架藏着哪些惊喜？

2025-04-13

MCP、Function Calling 有什么区别？与 AI Agent 有什么关系？

2025-04-13

有了MCP，还需要深入研究Agent吗？

2025-04-13

大模型备案详解：哪些企业需要备案？如何高效准备？

2025-04-12

一夜之间，所有AI都会“说普通话”！谷歌A2A协议到底有多猛？

2025-04-12

谁是MCP 的 AI 好搭档？

2025-04-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB