我要投稿

都是通义千问，Qwen2-7B和Qwen1.5-14B怎么选

发布日期：2024-09-04 18:57:56 浏览次数： 3483 作者：AI工程师笔记

最近有位粉丝提问，说他有个项目，开发的时候用的是Qwen1.5-32B模型，正在考虑给客户部署，但是客户的资源有限，可以部署14B的模型。他现在在纠结是给部署Qwen1.5-14B还是最新的Qwen2-7B。

首先，选择Qwen2-7B还是Qwen1.5-14B主要取决于项目对模型性能的需求和应用场景。但从性能来看的话，我的观点是：虽然Qwen1.5-14B拥有更大的参数量，但Qwen2-7B的性能全方面优于Qwen1.5-14B。

以上的结论并不是毫无根据的，通过对比阿里官方关于相同基准的模型评测，我们也可以得出以上的结论：

• Base模型的评测：

	Qwen2-7B	Qwen1.5-7B	Qwen1.5-14B	Qwen1.5-32B
MMLU	70.3	61.0	67.6	73.4
BBH	62.6	40.2	53.7	66.8
HumanEval	51.2	36.0	37.8	37.2
GSM8K	79.9	62.5	70.1	77.4
MATH	44.2	20.3	29.2	36.1
C-Eval	83.2	74.1	78.7	83.5
CMMLU	83.9	73.1	77.6	82.3

• Instruct指令微调（人类偏好对齐）评测：

	Qwen2-7B-Instruct	Qwen1.5-7B-Chat	Qwen1.5-14B-Chat	Qwen1.5-72B-Chat
MT-Bench	8.41	7.60	7.91	8.61

注：

Qwen1.5沿用Base和Chat模型的分类，Chat模型又称聊天模型，是经过人类偏好对齐的版本，对齐的目的是增强语言的指令跟随能力，生成和人类偏好相近的回复。

Qwen2版本采用Base和Instruct的分类，Instruct为指令微调版本，同样是增强了模型的指令跟随能力和人类偏好。

除了以上性能的提升外，在Qwen1.5系列中，只有32B和110B的模型使用了GQA。而Qwen2所有尺寸的模型都使用了GQA，以便让大家体验到GQA带来的推理加速和显存占用降低的优势。

上下文长度方面，Qwen2所有的预训练模型均在32K tokens的数据上进行训练，Qwen2-7B-Instruct更是实现了长达128K tokens上下文长度的支持。

结论：

1、Qwen2-7B在多个评测中表现优异，超越了拥有140亿参数的Qwen1.5-14B，这表明Qwen2-7B在效率和性能之间取得了很好的平衡。
2、Qwen2-7B拥有GQA技术的加持，在推理加速和显存占用方面具备更大优势。
3、Qwen2-7B具备128K上下文长度，而Qwen1.5-14B仅有32K的上下文。