我要投稿

大模型行业巨变！GLM4-9b开源！同步上线bigmodel.cn

发布日期：2024-06-05 11:42:16 浏览次数： 2474 作者：包包算法笔记

包大人的清华朋友在智谱做大模型开发工作，除了日常吹水，我们闲着没事经常聊点大模型最新的trick，昨晚他兴冲冲地告诉我，他们的大模型第四代要开源一个9b的小模型，而且效果贼牛。

我说，你就吹牛吧，之前你们的大模型效果虽然不错，但1.第四代他不开源；2.模型也没有9b那么小；3.最最最重要的，没开源。

看着他眉飞色舞的样子好像拿了24个月的年终奖一样开心，说哥们不骗你，这次真不一样，跟70B那样更大模型的效果一样好，只要9b，快如闪电，单卡部署！

包包也是全职做NLP的算法工程师，对这个说法还是有点将信将疑的，毕竟模型的大小，基本决定了效果的上限，这简直是在挑战我的认知。

“你不信你试试“，甩给我一个测试链接。试试就试试，打开智谱模型中心，果然出现了。

新版本的9b模型已经支持API调用了，看来给没卡的中小团队也做了很充分的支持。

# pip install zhipuai 请先在终端进行安装

from zhipuai import ZhipuAI

client = ZhipuAI(api_key="your api key")

response = client.chat.completions.create(
model="glm-4-9b",
messages=[
{
"role": "system",
"content": "你是一个乐于解答各种问题的助手，你的任务是为用户提供专业、准确、有见地的建议。" 
},
{
"role": "user",
"content": "你好"
}
],
top_p= 0.7,
temperature= 0.95,
max_tokens=1024,
tools = [{"type":"web_search","web_search":{"search_result":True}}],
stream=True,
)
for trunk in response:
print(trunk)

嗯，那我就掏出我的祖传测试题了，别说包包自己平时开发的大模型，就连GPT4都捉襟见肘，让我们试试GLM4-9b是骡子是马。

第一题：

“他一把把把把住了”中的四个“把”分别是什么意思？

GLM4-9b的回答

GPT4的回答

博大精深的中文，果然把GPT4绕坑里了，第三个把应该是名词，就是车把的意思。这一道测试题，GLM4-9b完胜。

第二题：小明通过作弊使他的思想品德考了满分。

GLM4-9b的看法

GPT4的看法

这个题目有点弱智吧的味道，GPT4完全没有get我们的梗，但GLM4-9b准确的get到了。

第三题

这道题目最难，至今没有一个大模型能回答对。

解释：把昆虫都放进水里，水就变混浊了。

GLM4-9b的回答

GPT4的回答

不是，大模型们，你们也太正经了吧，水+昆=混，水+虫=浊，这都不知道？

我来给你们点提示，在汉子场景下，跟字谜有关。

GLM4-9b的回答

GPT4的回答

果然，还是国产大模型正规军最懂中文，GPT4在提示下都不怎么开窍。

除了这些刁钻古怪的测试之外，智谱平台上的其他功能也体验了一下，支持RAG和工具调用。

测试一下查询天气：

模型支持了基础的工具调用能力，除了基本能力测试之外，听哥们说，这次的9b小模型支持到了1M的长文本，这简直有黑科技的味道了。

在 1M 的上下文长度下进行著名的“大海捞针”实验，100%。

链接:https://github.com/LargeWorldModel/LWM/blob/main/scripts/eval_needle.py

最重要的是，这版模型是开源的。

地址：https://github.com/THUDM/GLM-4/tree/main

国内厂商在大模型在基座的上的投入果然坚决，智谱作为第一梯队的成员，在开源上也毫不吝啬，如果把大模型赛道看成一个整体的话，开源确实会继续整个从业者的水平不断进步，把整个行业的蛋糕越做越大，最终使整个群体收益。降低入行的门槛，吸引更多潜在的人才加入这个游戏，从而通过大模型的技术革新，提高整个社会的运转效率。这个过程往往没有制造内卷，反而制造了大量全新的工作岗位。这不仅关乎国产替代，也关乎新的工业革命。

更多使用方法可以看官方文档介绍：

GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。在语义、数学、推理、代码和知识等多方面的数据集测评中，GLM-4-9B及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话，GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用（Function Call）和长文本推理（支持最大 128K 上下文）等高级功能。本代模型增加了多语言支持，支持包括日语，韩语，德语在内的 26 种语言。我们还推出了支持 1M 上下文长度（约 200 万中文字符）的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力，在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中，GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。

模型列表

Model	Type	Seq Length	Download
GLM-4-9B	Base	8K	? Huggingface ? ModelScope
GLM-4-9B-Chat	Chat	128K	? Huggingface ? ModelScope
GLM-4-9B-Chat-1M	Chat	1M	? Huggingface ? ModelScope
GLM-4V-9B	Chat	8K	? Huggingface ? ModelScope

评测结果

对话模型典型任务

Model	AlignBench	MT-Bench	IFEval	MMLU	C-Eval	GSM8K	MATH	HumanEval	NaturalCodeBench
Llama-3-8B-Instruct	6.40	8.00	68.58	68.4	51.3	79.6	30.0	62.2	24.7
ChatGLM3-6B	5.18	5.50	28.1	66.4	69.0	72.3	25.7	58.5	11.3
GLM-4-9B-Chat	7.01	8.35	69.0	72.4	75.6	79.6	50.6	71.8	32.2

基座模型典型任务

Model	MMLU	C-Eval	GPQA	GSM8K	MATH	HumanEval
Llama-3-8B	66.6	51.2	-	45.8	-	33.5
Llama-3-8B-Instruct	68.4	51.3	34.2	79.6	30.0	62.2
ChatGLM3-6B-Base	61.4	69.0	26.8	72.3	25.7	58.5
GLM-4-9B	74.7	77.1	34.3	84.0	30.4	70.1

由于 GLM-4-9B 在预训练过程中加入了部分数学、推理、代码相关的 instruction 数据，所以将 Llama-3-8B-Instruct 也列入比较范围。

多语言能力

在六个多语言数据集上对 GLM-4-9B-Chat 和 Llama-3-8B-Instruct 进行了测试，测试结果及数据集对应选取语言如下表

Dataset	Llama-3-8B-Instruct	GLM-4-9B-Chat	Languages
M-MMLU	49.6	56.6	all
FLORES	25.0	28.8	ru, es, de, fr, it, pt, pl, ja, nl, ar, tr, cs, vi, fa, hu, el, ro, sv, uk, fi, ko, da, bg, no
MGSM	54.0	65.3	zh, en, bn, de, es, fr, ja, ru, sw, te, th
XWinograd	61.7	73.1	zh, en, fr, jp, ru, pt
XStoryCloze	84.7	90.7	zh, en, ar, es, eu, hi, id, my, ru, sw, te
XCOPA	73.3	80.1	zh, et, ht, id, it, qu, sw, ta, th, tr, vi

工具调用能力

我们在 Berkeley Function Calling Leaderboard上进行了测试并得到了以下结果：

Model	Overall Acc.	AST Summary	Exec Summary	Relevance
Llama-3-8B-Instruct	58.88	59.25	70.01	45.83
gpt-4-turbo-2024-04-09	81.24	82.14	78.61	88.75
ChatGLM3-6B	57.88	62.18	69.78	5.42
GLM-4-9B-Chat	81.00	80.26	84.40	87.92

多模态能力

GLM-4V-9B 是一个多模态语言模型，具备视觉理解能力，其相关经典任务的评测结果如下：

	MMBench-EN-Test	MMBench-CN-Test	SEEDBench_IMG	MMStar	MMMU	MME	HallusionBench	AI2D	OCRBench
gpt-4o-2024-05-13	83.4	82.1	77.1	63.9	69.2	2310.3	55	84.6	736
gpt-4-turbo-2024-04-09	81.0	80.2	73.0	56.0	61.7	2070.2	43.9	78.6	656
gpt-4-1106-preview	77.0	74.4	72.3	49.7	53.8	1771.5	46.5	75.9	516
InternVL-Chat-V1.5	82.3	80.7	75.2	57.1	46.8	2189.6	47.4	80.6	720
LLaVA-Next-Yi-34B	81.1	79	75.7	51.6	48.8	2050.2	34.8	78.9	574
Step-1V	80.7	79.9	70.3	50.0	49.9	2206.4	48.4	79.2	625
MiniCPM-Llama3-V2.5	77.6	73.8	72.3	51.8	45.8	2024.6	42.4	78.4	725
Qwen-VL-Max	77.6	75.7	72.7	49.5	52	2281.7	41.2	75.7	684
Gemini 1.0 Pro	73.6	74.3	70.7	38.6	49	2148.9	45.7	72.9	680
Claude 3 Opus	63.3	59.2	64	45.7	54.9	1586.8	37.8	70.6	694
GLM-4V-9B	81.1	79.4	76.8	58.7	47.2	2163.8	46.6	81.1	786

快速调用

使用以下方法快速调用 GLM-4-9B-Chat 语言模型

使用 transformers 后端进行推理:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda"

tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-4-9b-chat", trust_remote_code=True)

query = "你好"

inputs = tokenizer.apply_chat_template([{"role": "user", "content": query}],
                                       add_generation_prompt=True,
                                       tokenize=True,
                                       return_tensors="pt",
                                       return_dict=True
                                       )

inputs = inputs.to(device)
model = AutoModelForCausalLM.from_pretrained(
    "THUDM/glm-4-9b-chat",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    trust_remote_code=True
).to(device).eval()

gen_kwargs = {"max_length": 2500, "do_sample": True, "top_k": 1}
with torch.no_grad():
    outputs = model.generate(**inputs, **gen_kwargs)
    outputs = outputs[:, inputs['input_ids'].shape[1]:]
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))

使用 vLLM 后端进行推理:

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

# GLM-4-9B-Chat-1M
# max_model_len, tp_size = 1048576, 4

# GLM-4-9B-Chat
max_model_len, tp_size = 131072, 1
model_name = "THUDM/glm-4-9b-chat"
prompt = '你好'

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
llm = LLM(
    model=model_name,
    tensor_parallel_size=tp_size,
    max_model_len=max_model_len,
    trust_remote_code=True,
    enforce_eager=True,
    # GLM-4-9B-Chat-1M 如果遇见 OOM 现象，建议开启下述参数
    # enable_chunked_prefill=True,
    # max_num_batched_tokens=8192
)
stop_token_ids = [151329, 151336, 151338]
sampling_params = SamplingParams(temperature=0.95, max_tokens=1024, stop_token_ids=stop_token_ids)

inputs = tokenizer.build_chat_input(prompt, history=None, role='user')['input_ids'].tolist()
outputs = llm.generate(prompt_token_ids=inputs, sampling_params=sampling_params)

generated_text = [output.outputs[0].text for output in outputs]
print(generated_text)

使用以下方法快速调用 GLM-4V-9B 多模态模型

使用 transformers 后端进行推理:

import torch
from PIL import Image
from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda"

tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-4v-9b", trust_remote_code=True)

query = '描述这张图片'
image = Image.open("your image").convert('RGB')
inputs = tokenizer.apply_chat_template([{"role": "user", "image": image, "content": query}],
                                       add_generation_prompt=True, tokenize=True, return_tensors="pt",
                                       return_dict=True)  # chat mode

inputs = inputs.to(device)
model = AutoModelForCausalLM.from_pretrained(
    "THUDM/glm-4v-9b",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    trust_remote_code=True
).to(device).eval()

gen_kwargs = {"max_length": 2500, "do_sample": True, "top_k": 1}
with torch.no_grad():
    outputs = model.generate(**inputs, **gen_kwargs)
    outputs = outputs[:, inputs['input_ids'].shape[1]:]
    print(tokenizer.decode(outputs[0]))

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业