GLM4-9B 介绍

发布日期：2024-06-29 11:45:09 浏览次数： 1660

2024.06.05 智谱 AI 在Open Day发布 GLM-4-9B 系列开源模型

2024.06.18发布了技术报告

https://github.com/THUDM/GLM-4
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。

在语义、数学、推理、代码和知识等多方面的数据集测评中， GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。

除了能进行多轮对话，GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用（Function Call）和长文本推理（支持最大 128K 上下文）等高级功能。

本代模型增加了多语言支持，支持包括日语，韩语，德语在内的 26 种语言。

我们还推出了支持 1M 上下文长度（约 200 万中文字符）的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。

GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力，在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中，GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。

Tech Report：

Abstract

This report primarily focuses on the GLM-4 language series, which includes GLM-4, GLM-4-Air, and GLM-4-9B.
GLM-4 models are pre-trained on 10T of tokens mostly in Chinese and English, along with a small set of corpus from 24 languages, and aligned primarily for Chinese andEnglish usage.
The high-quality alignment is achieved via a multi-stage posttraining process, which involves supervised fine-tuning and learning from human feedback.

1. Introduction

GPT-3.5 series 在 GPT-3 的基础上进行改进，结合instruction tuning, supervised fine tuning (SFT), and/or reinforcement learning from human feedback (RLHF)
GLM (General Language Model) pretrained with an autoregressive blank-filling objective and can be finetuned on various natural language understanding and generation tasks.

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

ChatGLM-6B（第一代）

基于GLM架构，6.2B参数，结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。
针对中文问答和对话进行了优化**1T 中英tokens **
context length of 2,048 (2K)
为了方便下游开发者针对自己的应用场景定制模型，同时实现了基于 P-Tuning v2 的高效参数微调方法使用指南) ，INT4 量化级别下最低只需 7GB 显存即可启动微调。
局限性：如事实性/数学逻辑错误，可能生成有害/有偏见内容，较弱的上下文能力，自我认知混乱，以及对英文指示生成与中文指示完全矛盾的内容。
ChatGLM-6B 的部署与微调教程
ChatGLM-6B 结合 langchain 实现本地知识库 QA Bot

ChatGLM2-6B（第二代）

使用了 GLM 的混合目标函数，经过了 1.4T 中英token的预训练与人类偏好对齐训练
采用FlashAttention，context length 从2K扩展到 32K，并在对话阶段使用 8K 的上下文长度训练。对于更长的上下文，我们发布了 ChatGLM2-6B-32K 模型。
使用Multi-Query Attention，使得inference speed增加42%
INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K。
ChatGLM2-6B 在腾讯云部署教程
ChatGLM2-6B 的部署与微调教程

ChatGLM3-6B（第三代）

ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。
采用了全新设计的 Prompt 格式，除正常的多轮对话外, 同时原生支持工具调用（Function Call）、代码执行（Code Interpreter）和 Agent 任务等复杂场景
除了对话模型 ChatGLM3-6B 外，还开源了基础模型 ChatGLM3-6B-Base 、长文本对话模型 ChatGLM3-6B-32K 和进一步强化了对于长文本理解能力的 ChatGLM3-6B-128K。
微调 ChatGLM3-6B 模型

ChatGLM4-9B

预训练后的checkpoint，经过multi-stage post-training process (e.g., SFT, RLHF, safety alignment)主要关注中英文
然后分为两个版本: GLM-4 and GLM-4 All Tools, 均支持128K的上下文长度
最新的模型是 GLM-4 (0520) 和 GLM-4-Air (0605)，在预训练和对齐方面均进行了升级。 GLM-4-Air 的性能与 GLM-4 (0116) 相当，但延迟和推理成本更低。
GLM-4 0520 能力表现接近 GPT-4 0613 and Gemini 1.5 Pro
GLM-4’s instruction following capacities on both prompt and instruction levels are approximately as effective as GPT-4-Turbo in both English and Chinese.
GLM-4 outperforms GPT-4 and matches GPT-4-Turbo across eight dimensions in AlignBench
for long-context tasks, the GLM-4 (128K) model matches the performance level of GPT-4 Turbo and Claude 3 Opus as measured by LongBench-Chat

GLM-4-9B

在接近10T token的多语言语料上进行预训练
context length of 8192 (8K)
post-trained with the same pipeline and data used for GLM-4 (0520).
更少的训练计算, 效果超过 Llama-3- 8B 支持 all the functionality of All Tools in GLM-4
提供GLM-4-9B-Chat-1M with 1 million (1M) context length (about 2 million Chinese characters)

微调

https://github.com/THUDM/GLM-4/blob/main/finetune_demo/README.md

2. ChatGLM Techniques

Pre-Training Data

consists of multilingual (mostly English and Chinese) documents from a mixture of different sources
data processing pipeline: deduplication, filtering, and tokenization

使用字节级byte pair encoding (BPE) 算法 to separately learn the Chinese and multilingual tokens merge them with the tokens of the cl100k_base tokenizer in tiktoken into a unified vocabulary with a size of 150,000
为了提升性能，我们将 tokenizer 的词表大小从 65k 扩充到了 150k，这一改进使得编码效率提高了 30%。
data quality and diversity are crucial for building effective LLMs
尽管获得了经验教训和见解，但迄今为止我们尚未确定可以指导数据收集、清理和选择过程的基本原则。

Architecture

GLM family of LLMs is built on Transformer
** No Bias Except QKV**: To increase training speed, we have removed all bias terms with the exception of the biases in Query, Key, and Value (QKV) of the attention layers. In doing so, we observed a slight improvement in length extrapolation.
RMSNorm and SwiGLU: 用于替换 LayerNorm and ReLU
Rotary positional embeddings (RoPE): We have extended the RoPE to a two-dimensional form to accommodate the 2D positional encoding in GLM.
Group Query Attention (GQA): 替换 Multi-Head Attention (MHA) 用于 cut down on the KV cache size during inference. Given GQA uses fewer parameters than MHA, we increased the FFN parameter count to maintain the same model size, i.e., setting dffn to 10/3 of the hidden size.
context length of our models was extended from 2K (ChatGLM), to 32K (ChatGLM2 and ChatGLM3), and to 128K and 1M (GLM-4).

Alignment

在 SFT 中，我们发现真实的人类提示和交互（而不是基于模板或模型生成的响应）对对齐质量至关重要。虽然 SFT 在很大程度上使基础模型与人类偏好保持一致，但 RLHF 可以进一步帮助缓解响应拒绝、安全性、生成的双语标记混合以及多轮连贯性等问题。
对于第一代模型（ChatGLM-6B 和 ChatGLM-130B），提示-响应对 大多由模型开发人员注释。对于后续模型，对齐数据是内部注释数据和从第三方获得的专有数据的组合，并受到相对严格的质量控制措施的约束。与现有实践类似，指示注释者从多个维度对模型响应进行评分，包括安全性、事实性、相关性、有用性和人类偏好。

ChatGLM Techniques

Emergent Abilities of LLMs 在相同的预训练损失下，不同模型大小和训练标记的 LLM 产生相同的下游性能
LongAlign 一种全面的长上下文对齐方法。它使 GLM-4 能够处理长上下文文本（最多 128K 个标记），性能可与 Claude 2 和 GPT-4 Turbo（1106）相媲美。
ChatGLM-Math 利用自我批评而不是外部模型或手动注释来选择数据。
ChatGLM-RLHF 将 PPO 和 DPO 应用于 LLM 的实践
Self-Contrast为了避免需要昂贵的人类偏好反馈数据，我们开发了一种无反馈对齐策略 Self-Contrast。它利用目标 LLM 本身为其 RLHF 对齐自行生成大量负样本
AgentTuning 为了提高 LLM 的代理能力，我们使用 AgentInstruct 指令调整数据集开发了 AgentTurning 框架，该数据集包含代理与环境之间的高质量交互轨迹。
APAR 为了提高具有层次结构响应的 LLM 推理速度，我们提出了一种自并行自回归 (APAR) 生成方法。它利用指令调优来训练 LLM 来规划其（并行）生成过程并执行 APAR 生成。
基准测试：我们还开发了几个开放的 LLM 基准测试，包括用于评估 LLM 作为代理的 AgentBench、用于评估 LLM 的长上下文处理性能的 LongBench 、用于测量 ChatGLM 与中文内容的对齐质量的 AlignBench、用于评估 Python 以外的编程语言中的 HumanEval 问题的 HumanEval-X ，以及用于衡量模型解决实际编程任务的能力的 NaturalCodeBench (NCB)。

GLM-4 All Tools

3. GLM-4 Capabilities

GLM-4-9B 支持包括汉语、英语、俄语、西班牙语、德语、法语、意大利语、葡萄牙语、波兰语、日语、荷兰语、阿拉伯语、土耳其语、捷克语、越南语、波斯语、匈牙利语、希腊语、罗马尼亚语、瑞典语、乌克兰语、芬兰语、韩语、丹麦语、保加利亚语和挪威语在内的 26 种语言。

4. Safety and Risks

53AI，大模型落地应用首选服务商

定位：开箱即用的大模型落地应用平台

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

年轻人！来一起搞AI吗?

如果你看见AI对商业世界的变革，欢迎来和我们一起探索~

岗位：销售经理

查看详情

岗位：项目经理

查看详情

岗位：产品经理

查看详情

岗位：测试工程师

查看详情

160+中大型企业正在使用53AI

立即咨询申请演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

2024-04-24

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

实测：本地跑llama3:70B需要什么配置

2024-04-24

超简单在本地部署Llama3的方案

2024-04-23

“大数据+”医疗

2024-04-11

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

RAG系列04：使用ReRank进行重排序

2024-03-22

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

2024-03-29

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

2024-04-25

大家都在问

GraphRAG会成为AI原生应用中RAG的终局吗？

2024-07-05

下一代 RAG 技术来了！微软正式开源 GraphRAG：大模型行业将迎来新的升级？

2024-07-04

检索生成(RAG) vs 长文本大模型：实际应用中如何选择？

2024-07-04

实用指南｜如何提升 RAG Pipeline 效果？

2024-07-03

实测：开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何？

2024-07-02

研发AI产品过程中，没有自研的数据处理以及机器学习平台时，可以使用哪些平台？

2024-07-02

为什么很多人都放弃LangChain了？

2024-07-01

ChatGPT、Claude的数据分析能力已经到了何种水平？

2024-07-01

企业大模型落地应用平台

全员+AI

业务+AI

AIx业务

大模型咨询

大模型定制

Tech Report：

Abstract

1. Introduction

ChatGLM-6B（第一代）

ChatGLM2-6B（第二代）

ChatGLM3-6B（第三代）

ChatGLM4-9B

GLM-4-9B

微调

2. ChatGLM Techniques

Pre-Training Data

Architecture

Alignment

ChatGLM Techniques

GLM-4 All Tools

3. GLM-4 Capabilities

4. Safety and Risks

年轻人！来一起搞AI吗?

岗位：销售经理

岗位：项目经理

岗位：产品经理

岗位：测试工程师

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

神经网络算法 - 一文搞懂模型预训练Pre-training

最强 GPT 免费使用！GPT4O 开启多模态新时代！

实测：本地跑llama3:70B需要什么配置

超简单在本地部署Llama3的方案

“大数据+”医疗

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

RAG系列04：使用ReRank进行重排序

吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

MaxKB：基于LLM大语言模型开箱即用的知识库问答系统

大家都在问

GraphRAG会成为AI原生应用中RAG的终局吗？

下一代 RAG 技术来了！微软正式开源 GraphRAG：大模型行业将迎来新的升级？

检索生成(RAG) vs 长文本大模型：实际应用中如何选择？

实用指南 ｜ 如何提升 RAG Pipeline 效果？

实测：开源轻量化模型Gemma 2 在 A4000 GPU 上表现如何？

研发AI产品过程中，没有自研的数据处理以及机器学习平台时，可以使用哪些平台？

为什么很多人都放弃LangChain了？

ChatGPT、Claude的数据分析能力已经到了何种水平？

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

实用指南｜如何提升 RAG Pipeline 效果？