AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


腾讯开源Hunyuan-Large,3890亿参数,全球最大开源MoE模型
发布日期:2024-11-05 16:57:19 浏览次数: 1667 来源:猜想笔记


模型技术优势介绍


  • 高质量合成数据:通过使用合成数据增强训练,Hunyuan-Large 可以学习更丰富的表示,处理长上下文输入,并更好地推广到看不见的数据。


  • KV 缓存压缩利用分组查询注意(GQA)和跨层注意(CLA)策略显著减少 KV 缓存的内存使用量和计算开销,提高推理吞吐量。


  • 家特定的学习率缩放为不同的专家设置不同的学习率,以确保每个子模型有效地从数据中学习并有助于整体性能。


  • 长上下文处理能力预训练模型支持高达256K的文本序列,Instruct模型支持高达128K,显著增强了处理长上下文任务的能力。

  • 广泛的基准测试在多种语言和任务上进行大量实验,验证Hunyuan-Large的实用有效性和安全性。


基准评估


与具有相似激活参数大小的 Dense 和 MoE 竞争对手相比, Hunyuan-Large 预训练模型取得了最佳整体性能。


对于 MMLU、MMLU-Pro 和 CMMLU 等聚合基准,Hunyuan-Large 始终取得最佳性能,证实了其在聚合任务上的综合能力。


Hunyuan-Large 在常识理解和推理以及经典 NLP 任务(例如 QA 和阅读理解任务,例如 CommonsenseQA、PIQA 和 TriviaQA)中也表现出色。


对于数学能力,Hunyuan-Large 在 GSM8K 和 MATH 数学数据集上的表现优于所有基线,并且在中文 CMATH 上也获得了最佳结果。Hunyuan-Large 在所有中文任务(例如 CMMLU、C-Eval)中取得了整体最佳性能。


与具有类似激活参数的 LLM 相比,Hunyuan-Large-Instruct在大多数类型的任务上都实现了持续改进,表明了后训练的有效性。


深入研究不同类别基准测试中的模型性能,instruct 模型在 MMLU 和 MATH 数据集上取得了最佳性能。


值得注意的是,在 MMLU 数据集上,模型表现出显着的改进,比 LLama3.1-405B 模型高出 2.6%。


这种增强不仅仅是微不足道的,而是表明 Hunyuan-Large-Instruct 在广泛的语言理解任务中具有出色的理解和推理能力。该模型在 MATH 数据集上的表现进一步凸显了其实力,它比 LLama3.1-405B 明显高出 3.6%。



值得注意的是,这种准确度的飞跃仅通过 520 亿个激活参数就实现了,凸显了模型的效率。


PS:腾讯还开源了一个3D生成大模型。


END.


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询