微信扫码
与创始人交个朋友
我要投稿
2024年6月7日 阿里发布了最新的Qwen2系列模型:
已在Hugging Face和ModelScope上同步开源
发布了5种尺寸的预训练及微调模型,Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, and Qwen2-72B;
在中英文的基础上,训练数据中增加了27种语言的数据
在多个评测基准上表现优异
在代码和数学能力上显著提升
上下文长度扩展到128K tokens(Qwen2-72B-Instruct),其他版本的上下文 Stable support of 32K
Supporting tool use, RAG, role play, and playing as AI agent;
❝It is based on the Transformer architecture with SwiGLU activation, attention QKV bias, group query attention, etc.Additionally, we have an improved tokenizer adaptive to multiple natural languages and codes.
在Qwen1.5系列中,只有32B和110B的模型使用了GQA。而Qwen2 所有尺寸的模型都使用了GQA
针对小模型,由于embedding参数量较大,我们使用了tie embedding的方法让输入和输出层共享参数,增加非embedding参数的占比。
所有的预训练模型均在32k上下文预料上做预训练,且我们发现其在128K tokens时依然能在PPL评测中取得不错的表现。
对除中英文以外的27种语言进行了增强
模型使用了一种改进的分词器,它不仅适用于多种自然语言,还能处理代码。在自然语言处理和编程语言处理中,分词器用于将文本分解成更小的单位(如词、字符或其他符号),这是理解和处理文本的基础步骤。
相比Qwen1.5,Qwen2在大规模模型实现了非常大幅度的效果提升
对比当前最优的开源模型,Qwen2-72B在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型,如Llama-3-70B以及Qwen1.5最大的模型Qwen1.5-110B。这得益于其预训练数据及训练方法的优化。
大规模预训练后,我们对模型进行精细的微调,以提升其智能水平,让其表现更接近人类。这个过程进一步提升了代码、数学、推理、指令遵循、多语言理解等能力。此外,模型学会对齐人类价值观,它也随之变得更加对人类有帮助、诚实以及安全。我们的微调过程遵循的原则是使训练尽可能规模化的同时并且尽可能减少人工标注。
在代码方面,我们成功将CodeQwen1.5的成功经验融入Qwen2的研发中,实现了在多种编程语言上的显著效果提升。而在数学方面,大规模且高质量的数据帮助Qwen2-72B-Instruct实现了数学解题能力的飞升。
Qwen2系列中的所有Instruct模型,均在32k上下文长度上进行训练,并通过YARN或Dual Chunk Attention等技术扩展至更长的上下文长度。
Qwen2-72B-Instruct能够完美处理128k上下文长度内的信息抽取任务。结合其本身强大的性能,只要有充足的算力,它一定能成为你处理长文本任务的首选!
除了长上下文模型,我们还开源了一个智能体解决方案,用于高效处理100万tokens级别的上下文。https://qwenlm.github.io/blog/qwen-agent-2405/
还在训练更大的模型,继续探索模型及数据的Scaling Law。此外,我们还将把Qwen2扩展成多模态模型,融入视觉及语音的理解。在不久的将来,我们还会继续开源新模型。 不久后我们将推出Qwen2的技术报告
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-08-13
2024-08-21
2024-07-09
2024-06-13
2024-08-04
2024-04-11
2024-07-18
2024-07-01