我要投稿

一文搞Llama、Ollama和Llama Factory

发布日期：2024-07-21 10:38:00 浏览次数： 5558

在人工智能的浪潮中，大型语言模型（LLM）正逐渐成为技术进步的核心。其中，LLaMA模型家族以其卓越的性能和开源特性，引发了全球AI社区的广泛关注。今天，我们将深入介绍三个与语言模型相关的重要概念：Llama、Ollama 和 Llama Factory。

Llama：开源语言模型的明星

Llama（又称为羊驼）是由 Meta 公司（原 Facebook 公司）开源的预训练大型语言模型。Meta作为全球科技界的领军企业，在人工智能领域不断展现其深远的洞察力和雄厚的技术实力。

自其推出LLaMA系列大型语言模型以来，经过连续的创新和迭代，从最初的LLaMA 1到目前尖端的LLaMA 3，这一模型家族在技术规格上取得了显著的飞跃。

更重要的是，Meta公司选择开放源代码和数据集，这一战略决策极大地推动了人工智能研究和应用的发展，对整个AI领域的生态产生了革命性的影响。

2024 年 4 月 19 日，Meta 在官网上官宣了 Llama-3。作为继 Llama-1、Llama-2 和 Code-Llama 之后的第三代模型，Llama-3 在多个基准测试中实现了全面领先，性能优于业界同类最先进的模型。

Llama3包括8B和70B两个参数量版本。除此之外，Meta还透露，400B的Llama-3还在训练中。

Llama 系列模型通过不断地技术创新和优化，在各种任务上展现了卓越的性能，成为了大型语言模型研究和应用的重要里程碑。然而，需要注意的是，Llama 模型对中文的支持效果欠佳，在使用中文提问时，它可能会用英文或中文+英文进行回复。

Ollama：本地大模型运行的利器

Ollama是一款功能强大的开源软件，它打破了技术壁垒，让每一位用户都能在自己的计算机系统上轻松部署并运行开放的大型语言模型（LLM）。它全面支持Linux（特别是那些由Systemd管理的发行版）、Windows以及macOS（包括搭载Apple Silicon的设备）。

作为一款命令行界面（CLI）工具，Ollama极大地简化了开发者下载并本地运行LLM的过程。

通过简洁的命令行指令，用户可以快速下载包括Llama 3、Mixtral在内的多种模型。Ollama的操作体验可以与Docker相提并论。

正如Docker允许用户从中央仓库中拉取并运行各种容器化应用一样，Ollama也让用户能够从其模型库中下载并直接在终端运行各种开源的LLM。

Ollama通过将模型的权重、配置文件和所需数据集成到单一的封装包中，极大地优化了部署流程，同时涵盖了对GPU使用的精细调控，使用户在本地环境中轻松驾驭大型模型。

Ollama框架的一大亮点是对模型量化技术的内建支持，这项技术能够有效降低模型对显存的依赖。以4-bit量化为例，它能够将原本以FP16格式存储的权重参数转换为更紧凑的4位整数形式，这不仅显著缩减了模型的体积，也大幅度降低了模型推理过程中对显存的需求，让家用电脑运行大型AI模型成为现实。

更进一步，Ollama框架还提供了多样化的硬件加速方案，它不仅支持纯CPU模式下的推理运算，还兼容包括Apple Silicon在内的多种底层硬件架构，从而充分发挥各类硬件的计算潜力，提升模型运行的效率和性能。这种灵活性和适应性，让Ollama成为一个在不同计算环境下均能保持高效运行的强大工具。

Llama Factory：强大的微调框架

LLaMA-Factory，由北京航空航天大学开源，是一个专为大型语言模型（LLMs）微调而开发的低代码训练框架。它具有以下几个显著特点：

LLaMA-Factory 支持多种先进的微调算法和模型，包括但不限于：

多种模型：LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Yi、Gemma、Baichuan、ChatGLM、Phi 等等。
集成方法：（增量）预训练、（多模态）指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练等等。
多种精度：16 比特全参数微调、冻结微调、LoRA 微调和基于 AQLM/AWQ/GPTQ/LLM.int8/HQQ/EETQ 的 2/3/4/5/6/8 比特 QLoRA 微调。
先进算法：GaLore、BAdam、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ、PiSSA 和 Agent 微调。
实用技巧：FlashAttention-2、Unsloth、RoPE scaling、NEFTune 和 rsLoRA。
实验监控：LlamaBoard、TensorBoard、Wandb、MLflow 等等。
极速推理：基于 vLLM 的 OpenAI 风格 API、浏览器界面和命令行接口。