我要投稿

GLM4-9B 介绍

发布日期：2024-06-29 11:45:09 浏览次数： 4931 作者：是海潮音

2024.06.05 智谱 AI 在Open Day发布 GLM-4-9B 系列开源模型

2024.06.18发布了技术报告

https://github.com/THUDM/GLM-4
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。

在语义、数学、推理、代码和知识等多方面的数据集测评中， GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。

除了能进行多轮对话，GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用（Function Call）和长文本推理（支持最大 128K 上下文）等高级功能。

本代模型增加了多语言支持，支持包括日语，韩语，德语在内的 26 种语言。

我们还推出了支持 1M 上下文长度（约 200 万中文字符）的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。

GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力，在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中，GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。

Tech Report：

Abstract

This report primarily focuses on the GLM-4 language series, which includes GLM-4, GLM-4-Air, and GLM-4-9B.
GLM-4 models are pre-trained on 10T of tokens mostly in Chinese and English, along with a small set of corpus from 24 languages, and aligned primarily for Chinese andEnglish usage.
The high-quality alignment is achieved via a multi-stage posttraining process, which involves supervised fine-tuning and learning from human feedback.

1. Introduction

GPT-3.5 series 在 GPT-3 的基础上进行改进，结合instruction tuning, supervised fine tuning (SFT), and/or reinforcement learning from human feedback (RLHF)
GLM (General Language Model) pretrained with an autoregressive blank-filling objective and can be finetuned on various natural language understanding and generation tasks.

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

ChatGLM-6B（第一代）

基于GLM架构，6.2B参数，结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。
针对中文问答和对话进行了优化**1T 中英tokens **
context length of 2,048 (2K)
为了方便下游开发者针对自己的应用场景定制模型，同时实现了基于 P-Tuning v2 的高效参数微调方法使用指南) ，INT4 量化级别下最低只需 7GB 显存即可启动微调。
局限性：如事实性/数学逻辑错误，可能生成有害/有偏见内容，较弱的上下文能力，自我认知混乱，以及对英文指示生成与中文指示完全矛盾的内容。
ChatGLM-6B 的部署与微调教程
ChatGLM-6B 结合 langchain 实现本地知识库 QA Bot

ChatGLM2-6B（第二代）

使用了 GLM 的混合目标函数，经过了 1.4T 中英token的预训练与人类偏好对齐训练
采用FlashAttention，context length 从2K扩展到 32K，并在对话阶段使用 8K 的上下文长度训练。对于更长的上下文，我们发布了 ChatGLM2-6B-32K 模型。
使用Multi-Query Attention，使得inference speed增加42%
INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K。
ChatGLM2-6B 在腾讯云部署教程
ChatGLM2-6B 的部署与微调教程

ChatGLM3-6B（第三代）

ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。
采用了全新设计的 Prompt 格式，除正常的多轮对话外, 同时原生支持工具调用（Function Call）、代码执行（Code Interpreter）和 Agent 任务等复杂场景
除了对话模型 ChatGLM3-6B 外，还开源了基础模型 ChatGLM3-6B-Base 、长文本对话模型 ChatGLM3-6B-32K 和进一步强化了对于长文本理解能力的 ChatGLM3-6B-128K。
微调 ChatGLM3-6B 模型

ChatGLM4-9B

预训练后的checkpoint，经过multi-stage post-training process (e.g., SFT, RLHF, safety alignment)主要关注中英文
然后分为两个版本: GLM-4 and GLM-4 All Tools, 均支持128K的上下文长度
最新的模型是 GLM-4 (0520) 和 GLM-4-Air (0605)，在预训练和对齐方面均进行了升级。 GLM-4-Air 的性能与 GLM-4 (0116) 相当，但延迟和推理成本更低。
GLM-4 0520 能力表现接近 GPT-4 0613 and Gemini 1.5 Pro
GLM-4’s instruction following capacities on both prompt and instruction levels are approximately as effective as GPT-4-Turbo in both English and Chinese.
GLM-4 outperforms GPT-4 and matches GPT-4-Turbo across eight dimensions in AlignBench
for long-context tasks, the GLM-4 (128K) model matches the performance level of GPT-4 Turbo and Claude 3 Opus as measured by LongBench-Chat

GLM-4-9B

在接近10T token的多语言语料上进行预训练
context length of 8192 (8K)
post-trained with the same pipeline and data used for GLM-4 (0520).
更少的训练计算, 效果超过 Llama-3- 8B 支持 all the functionality of All Tools in GLM-4
提供GLM-4-9B-Chat-1M with 1 million (1M) context length (about 2 million Chinese characters)

微调

https://github.com/THUDM/GLM-4/blob/main/finetune_demo/README.md

2. ChatGLM Techniques

Pre-Training Data

consists of multilingual (mostly English and Chinese) documents from a mixture of different sources
data processing pipeline: deduplication, filtering, and tokenization

使用字节级byte pair encoding (BPE) 算法 to separately learn the Chinese and multilingual tokens merge them with the tokens of the cl100k_base tokenizer in tiktoken into a unified vocabulary with a size of 150,000
为了提升性能，我们将 tokenizer 的词表大小从 65k 扩充到了 150k，这一改进使得编码效率提高了 30%。
data quality and diversity are crucial for building effective LLMs
尽管获得了经验教训和见解，但迄今为止我们尚未确定可以指导数据收集、清理和选择过程的基本原则。

Architecture

GLM family of LLMs is built on Transformer
** No Bias Except QKV**: To increase training speed, we have removed all bias terms with the exception of the biases in Query, Key, and Value (QKV) of the attention layers. In doing so, we observed a slight improvement in length extrapolation.
RMSNorm and SwiGLU: 用于替换 LayerNorm and ReLU
Rotary positional embeddings (RoPE): We have extended the RoPE to a two-dimensional form to accommodate the 2D positional encoding in GLM.
Group Query Attention (GQA): 替换 Multi-Head Attention (MHA) 用于 cut down on the KV cache size during inference. Given GQA uses fewer parameters than MHA, we increased the FFN parameter count to maintain the same model size, i.e., setting dffn to 10/3 of the hidden size.
context length of our models was extended from 2K (ChatGLM), to 32K (ChatGLM2 and ChatGLM3), and to 128K and 1M (GLM-4).

Alignment

在 SFT 中，我们发现真实的人类提示和交互（而不是基于模板或模型生成的响应）对对齐质量至关重要。虽然 SFT 在很大程度上使基础模型与人类偏好保持一致，但 RLHF 可以进一步帮助缓解响应拒绝、安全性、生成的双语标记混合以及多轮连贯性等问题。
对于第一代模型（ChatGLM-6B 和 ChatGLM-130B），提示-响应对 大多由模型开发人员注释。对于后续模型，对齐数据是内部注释数据和从第三方获得的专有数据的组合，并受到相对严格的质量控制措施的约束。与现有实践类似，指示注释者从多个维度对模型响应进行评分，包括安全性、事实性、相关性、有用性和人类偏好。

ChatGLM Techniques

Emergent Abilities of LLMs 在相同的预训练损失下，不同模型大小和训练标记的 LLM 产生相同的下游性能
LongAlign 一种全面的长上下文对齐方法。它使 GLM-4 能够处理长上下文文本（最多 128K 个标记），性能可与 Claude 2 和 GPT-4 Turbo（1106）相媲美。
ChatGLM-Math 利用自我批评而不是外部模型或手动注释来选择数据。
ChatGLM-RLHF 将 PPO 和 DPO 应用于 LLM 的实践
Self-Contrast为了避免需要昂贵的人类偏好反馈数据，我们开发了一种无反馈对齐策略 Self-Contrast。它利用目标 LLM 本身为其 RLHF 对齐自行生成大量负样本
AgentTuning 为了提高 LLM 的代理能力，我们使用 AgentInstruct 指令调整数据集开发了 AgentTurning 框架，该数据集包含代理与环境之间的高质量交互轨迹。
APAR 为了提高具有层次结构响应的 LLM 推理速度，我们提出了一种自并行自回归 (APAR) 生成方法。它利用指令调优来训练 LLM 来规划其（并行）生成过程并执行 APAR 生成。
基准测试：我们还开发了几个开放的 LLM 基准测试，包括用于评估 LLM 作为代理的 AgentBench、用于评估 LLM 的长上下文处理性能的 LongBench 、用于测量 ChatGLM 与中文内容的对齐质量的 AlignBench、用于评估 Python 以外的编程语言中的 HumanEval 问题的 HumanEval-X ，以及用于衡量模型解决实际编程任务的能力的 NaturalCodeBench (NCB)。