我要投稿

本地运行 LLM 的全攻略

发布日期：2024-04-21 08:33:29 浏览次数： 3233

作者：极大成者

微信搜一搜，关注“极大成者”

在数字化时代，人工智能技术的发展日新月异，其中大模型技术获得了广泛关注。其中最有代表性的是 OpenAI 发布的 ChatGPT，凭借出色的对话生成能力和广泛的应用领域而闻名于世。其背后的 Transformer 架构和强大的预训练技术使得它成为了自然语言处理领域的佼佼者。

随着对大型语言模型需求的不断增加，开源社区也在不断涌现出各种优秀的大型语言模型。一些常见的开源大型语言模型包括 LLama2、通义千问、Gemma 等。

现在主流的使用方式是使用云端模型提供的 Console 或者 API 接口，这是因为云端提供了许多便利和优势，使得大型模型的运行更加高效和可靠。然而，有时候使用本地大型模型也是有其必要性和优势的。本地运行大型语言模型具有数据隐私保护、低延迟、灵活性、节约成本和离线运行等诸多优势，适用于各种需要经济性和安全性的应用场景。

Ollama 是一个基于开源技术构建的大型语言模型平台，旨在为用户提供便捷的自然语言处理解决方案。其底层实现采用了 llama.cpp 作为主要技术支持，借助其高效的模型推理能力和本地运行环境优化，使得 Ollama 能够在本地环境运行大模型，实现高质量的文本生成和理解。

Ollama 的使用方式非常简单。

我们可以从官网下载不同平台的安装文件：

https://ollama.com

然后我们就可以使用命令行运行大模型，比如运行谷歌的 Gemma 大模型，模型规模是经过 4bit 量化的70亿参数模型。

我们也可以利用社区开源的 WebUI 更方便地和大模型进行交互。

我们也可以在 WebUI 中使用 llava 多模态大模型解析图片内容。

Ollama 还提供了兼容 OpenAPI 的接口。可以方便接入 LangChain 等大模型运行框架。开发者可以融合云端和本地大模型开发多 Agent 应用。

经过在 CPU 和 GPU 运行环境中测试发现：

CPU 环境适合运行 7b 及以下的模型，主要消耗 CPU 资源，加载模型载入会消耗 5GB 左右的内存。
GPU 环境可以运行 13b 模型，主要消耗 GPU 资源，加载模型会消耗 8GB 左右的内存。

Ollama 支持了大部分主流开源大模型。

除了官方支持的模型之外，理论上 Ollama 支持所有 gguf 格式的模型。用户可以通过 huggingface 社区下载更多模型进行尝试。同时 Ollama 还支持基于 Modelfile 文件创建模型，用户可以使用 Modelfile 自定义模型的行为，例如通过指定 System Prompt，限制模型的角色和回答的内容范围。

本篇文章探讨了大型语言模型在现代社会中的重要性和影响。首先介绍了大型语言模型的背景，从 ChatGPT 等开源模型的出现到开源大模型，阐述了这些模型在自然语言处理领域的重要作用。接着，重点介绍了使用 Ollama 在本地运行大型模型的优势，包括数据隐私保护、低延迟、灵活性、节约成本和离线运行等方面。通过对比云端大型模型，强调了在某些特定场景下使用本地大型模型的合理性和必要性。最后，随着硬件技术和本地运行框架的不断进步，本地大模型也将成为大模型生态不可或缺的一部分，为人们的生活和工作提供更多便利。