我要投稿

【一文了解】Llama.cpp

发布日期：2025-04-05 13:04:09 浏览次数： 1698 作者：码农随心笔记

llama.cpp 是一个开源项目，它诞生的目的是将 Meta 的大语言模型（如 LLaMA1 - LLaMA3 等）高效地运行在各种设备上，尤其是 CPU 上。它的设计目标是轻量、跨平台、高性能，不依赖 GPU，也可以在手机、树莓派等资源有限的设备上运行。而且它是一个开源的项目，很适合开发者用来搭建本地大模型应用。

llama.cpp的功能

我们先来看看llama.cpp能实现哪些功能，能带来哪些便利：

模型推理：加载预训练语言模型并在本地进行文本生成，无需联网。
多轮对话：支持聊天模式，保留对话上下文，实现连续对话。
流式输出：支持 token-by-token 的流式回复。（像 ChatGPT 一样）
模型量化：支持多种量化格式（Q4, Q5, Q8 等），降低内存占用。
多种采样策略：Top-k, Top-p, Temperature, Mirostat 等采样控制。
Tokenizer 支持：支持 SentencePiece / BPE 分词器，自动加载。
模型格式支持：支持 GGUF 模型格式（推荐），兼容 LLaMA、Mistral 等。
参数控制：支持设置 batch size、上下文长度、采样参数等。
API 服务：提供 HTTP / WebSocket 模式接口。（通过 `llama-server`）
多平台支持：支持 Linux、macOS、Windows、iOS、Android、WASM。
插件/集成：可嵌入到 C/C++ 应用中，也可被 Python/C#/Rust 等调用。
推理优化：支持 SIMD 加速（AVX2/NEON）、KV 缓存、上下文复用。
本地运行：所有内容可离线运行，无需联网，保护隐私，适合搭建含有非公开信息的个人知识库和企业知识库。
Prompt 模拟：支持模拟 ChatGPT prompt 模式，方便对接前端。
工具支持：提供量化工具、模型格式转换工具、分词工具等。

我们选几个常用的功能加以解析：

1. 推理与聊天功能

基础推理（单轮）

通过命令行或 API 传入 prompt，返回 LLM 生成的结果：

./main -m models/llama-2-7b.Q4_K_M.gguf -p "What is the capital of France?"

输出：

The capital of France is Paris.

多轮对话（聊天模式）

支持维护上下文，进行连续对话，例如运行以下指令：

./chat -m models/llama-2-7b.Q4_K_M.gguf

示例对话：

> Hello!Assistant: Hi! How can I help you today?
> What's 12 x 9?Assistant: 12 multiplied by 9 is 108.

2. 模型量化与加载

支持的量化格式（通过 `quantize` 工具）：

格式	精度	优点	缺点
Q8_0	8-bit	精度高，性能好	占用较大
Q5_0 / Q5_K	5-bit	精度与性能折中	-
Q4_0 / Q4_K	4-bit	占用小，可在低端设备运行	精度略下降
GPTQ / AW	支持新量化方案（扩展）	需特定版本支持	-

通过量化，我们可以把原始模型从几十 GB 压缩到几 GB，适合在普通电脑运行。

多种采样策略

llama.cpp 实现了多种文本采样策略，用于控制输出的随机性和多样性：

Temperature：控制输出的创造性。（高温度更随机）
Top-k Sampling：从概率最高的 k 个 token 中采样。
Top-p Sampling (nucleus)：从累积概率 p 的 token 中采样。
Mirostat：一种自适应采样策略，控制困惑度（更智能）。
Repeat penalty：降低重复 token 概率。

3. API 服务功能（通过 server 模块）

通过 `llama-server` 或社区项目，例如 `llama-cpp-python`，可以把 `llama.cpp` 部署为本地 API 服务。

示例：

./server -m models/llama-2-7b.Q4_K_M.gguf

提供 OpenAI 风格的 API 接口：

POST /v1/chat/completions{  "messages": [    {"role": "user", "content": "Tell me a joke"}  ]}

llama.cpp 是一个功能强大且高效的大语言模型（LLM）推理引擎，尽管它不支持训练，但在推理方面，它具备丰富的功能，支持模型加载、聊天、流式输出、上下文管理、量化、API 接口等，它是使用Meta系列模型一款不可缺少的工具。

llama.cpp的架构

如果我们要用好llama.cpp，必须先了解这个开源框架的内容：

用户接口层（CLI / API）
main.cpp	命令行客户端
chat.cpp	聊天模式客户端
server.cpp	HTTP/WebSocket 服务接口
llama 推理引擎（llama.cpp / llama.h）
load model	模型加载
Tokenizer	分词器
推理逻辑	前向传播、KV 缓存、注意力
采样策略	Top-k, Top-p, 温度, Mirostat 等
prompt + history	上下文管理
GGML 张量计算库
ggml.c / ggml.h	核心张量库
static computation graph	支持静态计算图
底层优化	SIMD / AVX / NEON / Metal / CUDA
矩阵乘法、激活函数、RMSNorm、Softmax 等算子
量化与模型工具
quantize.c	模型量化工具
convert.py	模型格式转换（如 HF → GGUF）
tokenizer scripts	分词器训练或转换脚本

1. 用户接口层（User Interface Layer）

这一层为用户提供了不同的使用方式：

文件	功能
main.cpp	主命令行接口。支持加载模型并运行 prompt 推理。
chat.cpp	聊天模式，维护对话上下文，支持多轮聊天。
server/	提供 HTTP / WebSocket API 接口，适合集成到服务中。

特点：

简洁实用
支持流式输出
支持参数控制（温度、top-k 等）

2. llama 推理引擎（llama.cpp / llama.h）

这是 llama.cpp 的核心模块，负责构建模型、执行推理逻辑。它是面向用户的 API 层，封装了对 ggml 的调用。

主要功能：

组件	功能描述
llama_model	模型结构、权重、超参数管理
llama_context	推理上下文，包含 KV 缓存、token history 等
tokenizer	使用 `sentencepiece` 或内置 tokenizer 进行分词
llama_eval()	前向传播，输入 token，生成 logits
sampling.c	采样策略，生成下一个 token

特点：

封装良好
支持流式生成
支持多种采样策略

3. GGML（计算图与张量计算库）

ggml是 llama.cpp 的底层计算引擎，用于高效地在 CPU 上执行神经网络推理。它不依赖外部库，完全用 C 语言实现。

特点：

特性	描述
静态计算图	使用静态图优化内存和计算路径
张量操作	支持加法、乘法、softmax、matmul、激活等
后端优化	支持 AVX2 / AVX512 / NEON / Metal / CUDA 计算
内存管理	使用 Arena-style 内存池，避免频繁 malloc/free
多线程	支持 CMake 选项开启并行计算（例如 OpenMP）

优势：

极致的轻量化
原生 SIMD 支持
可自编译为 WebAssembly、iOS、安卓等平台

4. 模型与量化工具

支持将 HuggingFace 或原始 PyTorch 模型转换为 llama.cpp 使用的格式（推荐使用 GGUF）。

工具介绍：

工具	描述
convert.py	将原始模型（HF 格式）转换为 GGUF 格式
quantize.c	支持多种量化格式，如 Q4_0, Q5_1, Q8_0
tokenizer	支持加载 sentencepiece 模型进行分词