微信扫码
与创始人交个朋友
我要投稿
长话短说
中国时间 6 月 7 日 0 点,Qwen2 开源
包括 0.5B, 1.5B, 7B, 57B-A14B 和 72B
基础信息
训练集除中英文外,额外包括 27 种语言
最多支持 128K(72B 完美支持)
较擅长代码&数学(也是说的 72B)
开源协议
0.5B, 1.5B, 7B, 57B-A14B 使用 Apache 2.0
Qwen2-72B 使用 Qianwen License
Git 地址
https://github.com/QwenLM/Qwen2
Hugging Face
https://huggingface.co/Qwen
在线体验(72B)
https://huggingface.co/spaces/Qwen/Qwen2-72B-Instruct
技术参数
来自官方数据
基础信息
需要额外说的是,在Qwen1.5系列中,只有32B和110B的模型使用了GQA。这一次,所有尺寸的模型都使用了GQA
除了中英文外,还使用了其他 27 种语言的训练数据
在大海捞针里:
72B 和 7B 可处理 128k 上下文
57B-A14B 可处理 64k 上下文
0.5B 和 1.5B 可处理 32k 上下文
测试(72B)
看上去还不错,数据来自官方
测试(7B)
个人认为,这个对比是故意的
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-10-05
2024年OpenAI DevDay发布实时 API、提示缓存等新功能
2024-10-05
LLM Agent的构成、技术与挑战
2024-10-05
OpenAI重磅发布Canvas:跟ChatGPT一起写作编程
2024-10-05
OpenAI爆料!GPT-5参数将达17万亿,GPT-6规模增加百倍
2024-10-02
Sam Altman回顾OpenAI 开发者日:AGI之路更清晰了
2024-10-02
ChatGPT实时语音将于本周向免费用户推出:OpenAI DevDay 2024详细解读
2024-10-01
Chain of Tables表链-大语言模型实现结构化表格数据处理的新范式
2024-10-01
大型企业建设大模型应用共性能力平台的最新参考架构-Meta的Llama Stack
2024-03-30
2024-07-18
2024-04-26
2024-05-06
2024-04-11
2024-06-12
2024-07-09
2024-05-09
2024-07-25
2024-08-21