AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Llama3-70B微调上下文8K到1M+,仅430M数据预训练数据0.003%,训练方法细节
发布日期:2024-05-09 17:36:28 浏览次数: 2309


Llama3-70B微调上下文8K到1M+

Llama-3-70B-Instruct-Gradient-1048k介绍

近日Gradient团队发布了一款名为:gradientai/Llama-3-70B-Instruct-Gradient-1048k的LLM模型。这是一个使用Llama3作为基础模型的微调版本。Llama-3-70B-Instruct-Gradient-1048k这个模型将Llama-3 70B上下文长度从 8k 扩展到 > 1048K。同时该模型也展示了 SOTA LLM 通过适当调整RoPE theta参数情况下,就可以在最小的训练下学习操作长上下文。研发团队在这个阶段训练使用了 34M 令牌,所有阶段总共训练了约 430M Token令牌,这不到 Llama-3 最初预训练数据的 0.003%

训练方法:

同时研发团队也提供了训练方法细节:

  • • 以 meta-llama/Meta-Llama-3-70B-Instruct 作为微调模型的基础base模型

  • • 遵循LLM scaling laws 法则进行 NTK-aware 插值,以设置 RoPE theta 的最优时间表

  • • 类似于Large World Model 的逐步训练,增加模型窗口上下文长度。Large World Model:https://huggingface.co/LargeWorldModel

训练基础设施

在本次模型微调中,Gradient团队是基于 EasyContext Blockwise RingAttention库构建,以在 Crusoe Energy 高性能 L40S集群上可扩展和高效地训练非常长的上下文。

并且团队在 Ring Attention 上增加了并行性,并使用自定义网络拓扑以更好地利用大型 GPU 集群,来解决设备之间传递许多KV块的网络瓶颈。

训练数据:

在训练数据上,Gradient团队通过增强 SlimPajama 生成长上下文,同时还基于 UltraChat 的聊天数据集进行了微调,遵循下面图表中数据增强的类似配方,逐步训练细节如下:

Ollama体验

当前社区已有Ollama版本支持,可以使用Ollama快速体验:https://ollama.com/library/llama3-gradient

关于Ollama使用,请参见之前文章:

ollama run llama3-gradient

附录

  • • Llama-3-70B-Instruct-Gradient-1048k :https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-1048k

  • • Ollama:https://ollama.com/library/llama3-gradient


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询