AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Llama-3.1 70B全量训练!OpenBuddy发布新一代70B中文跨语言模型
发布日期:2024-09-07 21:00:31 浏览次数: 1606


本次发布的是我们在Llama3.1基座上的最新成果:openbuddy-llama3.1-70b-v22.3-131k。

得益于训练数据的增强及蒸馏数据的应用,和上一代70B模型相比,Llama3.1 70B在多种细分任务上均取得了更加优秀的表现,尤其是在GPQA等较为困难的任务上,Llama3.1 70B模型具备明显优势。

然而,Llama3.1 70B本身在中文理解与生成方面表现不佳:模型倾向于输出英文,并且在较难的中文问题上表现出中文理解力和知识储备的欠缺。


为了增强Llama3.1 70B模型的深度中文理解能力和中文知识储备,我们采用了对70B全量跨语言微调的方式。现有的主流框架上,70B模型的全量训练需要巨量显存,即使是开启了ZeRO-3优化,通常至少需要数十张卡的多机互联环境,且难以支持长文。


出于高效利用资源的考虑,我们近期探索了使用少量资源,进行70B模型的高效全量训练的可行性。基于Pytorch的FSDP分布式训练框架,我们开发出了新一代模型训练方案,在多个方面具备优势:


  • 显著提升VRAM效率、8卡即可全量训练70B模型。通过集成来自开源社区的各类Triton算子实现,以及优化器的CPU Offload技术,全量训练所需的VRAM显著降低。理想情况下,单机8卡即可全量训练70B模型。

  • 支持长文训练。为了保持模型基座的长文能力,在训练过程中使用长文数据十分重要。新一代训练方案在单机环境下支持70B模型的20K长文训练。

  • 训练速度进一步提升。在单机环境,70B模型训练效率可以优化至数千Tokens每秒,足以应对中小规模的训练。


在开发此方案的过程中,我们完整地实现了整个Training loop,而非使用huggingface trainer等现有的训练器,这种设计能够允许我们精调训练过程中的诸多细节。


本次发布的模型即为我们基于新的训练方案的首个模型,测试结果表明,模型在中文上具备稳定的理解能力,并在一些困难任务上,尤其是复杂编码任务上,具备更为优秀的表现。


在本次训练过程中,我们插入了一部分文言文语料,模型的理解、生成文言文能力也取得了一定的进步。


Q: 用文言文写个故事,关于一头算不清房贷利率的狮子

A: 昔有狮子,名曰智者,居于山林之中。其性聪明,能言人语,闻人间有所谓“房贷”之事,乃是人为居所而向他人借金,日后以利相偿。智者心生好奇,遂下山,欲探其究竟。

智者至城,见有银行,乃入其中,向银行之人询问房贷之事。银行之人曰:“吾等可借金予汝,以助汝购居所,然汝须按期偿还本金,并加利息。”智者曰:“利息之数,如何计算?”银行之人曰:“此乃复杂之事,需依据年利率、贷款期限等多种因素而定。”
智者听后,心生疑惑,曰:“年利率之数,如何得知?”银行之人曰:“此乃市场之变动所致,非一成不变。”智者曰:“若是,吾如何能算清利息之数?”银行之人曰:“此乃吾等之职责,汝但需按期偿还即可。”
智者听后,心生不满,曰:“吾为何要借金于汝,而不能自知利息之数?”银行之人曰:“此乃银行之规矩,汝若不愿,亦可不借。”智者曰:“吾欲借金,亦欲知利息之数,否则,吾宁愿不借。”
智者言毕,乃离开银行,回归山林。自此,智者不再提及房贷之事,专心于山林之中,过着简单而快乐的生活。
后人传说,智者之所以不愿借金,乃因其聪明之性,知晓利息之数乃是复杂之事,非一朝一夕所能算清。智者之行为,亦为后人所称赞,乃是智者之明智所在。




53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询