我要投稿

Llama 3.2：通过开放、可定制的模型彻底改变边缘人工智能和视觉

发布日期：2024-09-26 22:57:31 浏览次数： 2424

作者：唐国梁Tommy

微信搜一搜，关注“唐国梁Tommy”

1. Llama 3.2 模型简介

1.1 模型类别

包括小型和中型视觉模型（11B 和 90B）以及轻量级文本模型（1B 和 3B），适用于边缘设备和移动设备。

1.2 创新点

视觉模型创新：首次支持图像推理，11B 和 90B 模型通过适配器将图像编码器与语言模型相结合，实现文本与图像对齐。
后期训练优化：采用监督微调SFT、偏好优化DPO等方法，增强模型在图像和文本提示上的理解与推理能力。

1.3 模型性能

1.3.1 文本模型（1B和3B）

1B 和 3B 模型支持 128K tokens 上下文长度，专为本地设备的摘要、指令跟随、文本重写等任务设计。它具备强大的多语言生成能力，并支持工具调用，适合在本地应用，确保数据隐私。

1B 文本模型

Llama 3.2系列中最轻量级的模型，非常适合边缘设备和移动应用的摘要任务。该模型非常适合以下使用场景：个人信息管理和多语言知识检索。

3B 文本模型

为需要低延迟推理和有限计算资源的应用设计。在文本摘要、分类和语言翻译任务中表现出色。该模型非常适合以下使用场景：由AI驱动的移动写作助手和客户服务应用。

Lightweight instruction-tuned benchmarks

1.3.2 视觉模型（11B和90B）

11B 和 90B 模型支持图像与语言结合推理，如图像定位和物体识别，可用于文档级理解、图表信息提取等任务。它优于其他闭源模型（如 Claude 3 Haiku）在图像理解任务上的表现。

Vision instruction-tuned benchmarks

2. Llama 3.2 文本模型

Llama 3.2 是一组多语言的大语言模型（LLMs），包含1B和3B大小的预训练和指令调优生成模型（输入文本/输出文本），主要用于多语言对话场景，包括智能检索和摘要任务。它们在常见的行业基准测试中优于许多现有的开源和封闭式聊天模型。

2.1 模型架构

Llama 3.2 是一个自回归语言模型，使用优化的Transformer架构。调优版本采用了监督微调（SFT）和基于人类反馈的强化学习（RLHF）以适应人类对实用性和安全性的偏好。

2.2 支持语言

官方支持的语言包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 还在比这些8种语言更广泛的语言集合上进行了训练。开发者可以根据 Llama 3.2 社区许可协议和可接受使用政策对模型进行微调，以支持其他语言。

2.3 训练耗时

训练使用了累计91.6万小时的GPU计算时间，硬件为H100-80GB（TDP为700W），表中给出的训练时间为每个GPU设备的总GPU训练时间，经过功率使用效率调整后的数值。

2.4 训练数据

概览: Llama 3.2 在多达9万亿个来自公开可用资源的标记数据上进行了预训练。对于1B和3B的Llama 3.2模型，我们将来自Llama 3.1 8B和70B模型的logits数据合并到模型开发的预训练阶段，这些较大模型的输出作为token级目标。修剪后使用知识蒸馏恢复性能。在微调后，我们使用与Llama 3.1相似的配方，通过多轮对齐优化生成最终的聊天模型。每轮包括监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO）。

2.5 基准测试

Base Pretrained Models

Instruction Tuned Models

Multilingual Benchmarks

3. Llama 3.2 视觉模型

Llama 3.2-Vision 是一系列多模态大型语言模型（LLMs），包括经过预训练和指令微调的图像推理生成模型，提供 11B 和 90B 参数规模（文本+图像输入/文本输出）。Llama 3.2-Vision 指令微调模型专为视觉识别、图像推理、图像描述和回答图像相关的通用问题而优化。这些模型在许多公开或封闭的多模态模型上表现优于行业标准基准。

3.1 模型架构

Llama 3.2-Vision 构建于 Llama 3.1 纯文本模型之上，后者是使用优化的自回归语言模型（Transformer）架构。微调版本使用监督微调（SFT）和通过人类反馈（RLHF）的强化学习，以符合人类偏好的有用性和安全性。

为支持图像识别任务，Llama 3.2-Vision 模型使用单独训练的视觉适配器，与预训练的 Llama 3.1 语言模型集成。该适配器由一系列跨注意力层组成，将图像编码表示输入到核心 LLM 中。

3.2 支持语言

对于仅文本任务，Llama 3.2 正式支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 已在比这 8 种语言更广泛的语言集合上进行训练。对于图像+文本应用，当前仅支持英语。

3.3 使用场景

Llama 3.2-Vision 旨在用于商业和研究用途。指令微调模型用于视觉识别、图像推理、图像描述以及类似于图像的助手式聊天，而预训练模型可适应各种图像推理任务。

视觉问答（VQA）和视觉推理: 想象一台机器可以看着图片并理解你对其的提问。
文档视觉问答（DocVQA）: 想象计算机能够理解文档的文本和布局，如地图或合同，然后直接从图像中回答问题。
图像描述: 图像描述弥合了视觉和语言之间的差距，提取细节、理解场景，并生成讲述故事的句子。
图像-文本检索: 图像-文本检索类似于图像及其描述的匹配引擎，像搜索引擎一样，但能同时理解图片和文本。
视觉定位: 视觉定位就像将我们看到和说的点连接起来，它涉及理解语言如何基于自然语言描述来参考图像的特定部分，使 AI 模型能够根据这些描述来精确定位物体或区域。