微信扫码
与创始人交个朋友
我要投稿
本次发布的是我们在Llama3.1基座上的最新成果:openbuddy-llama3.1-70b-v22.3-131k。
得益于训练数据的增强及蒸馏数据的应用,和上一代70B模型相比,Llama3.1 70B在多种细分任务上均取得了更加优秀的表现,尤其是在GPQA等较为困难的任务上,Llama3.1 70B模型具备明显优势。
然而,Llama3.1 70B本身在中文理解与生成方面表现不佳:模型倾向于输出英文,并且在较难的中文问题上表现出中文理解力和知识储备的欠缺。
为了增强Llama3.1 70B模型的深度中文理解能力和中文知识储备,我们采用了对70B全量跨语言微调的方式。现有的主流框架上,70B模型的全量训练需要巨量显存,即使是开启了ZeRO-3优化,通常至少需要数十张卡的多机互联环境,且难以支持长文。
出于高效利用资源的考虑,我们近期探索了使用少量资源,进行70B模型的高效全量训练的可行性。基于Pytorch的FSDP分布式训练框架,我们开发出了新一代模型训练方案,在多个方面具备优势:
显著提升VRAM效率、8卡即可全量训练70B模型。通过集成来自开源社区的各类Triton算子实现,以及优化器的CPU Offload技术,全量训练所需的VRAM显著降低。理想情况下,单机8卡即可全量训练70B模型。
支持长文训练。为了保持模型基座的长文能力,在训练过程中使用长文数据十分重要。新一代训练方案在单机环境下支持70B模型的20K长文训练。
训练速度进一步提升。在单机环境,70B模型训练效率可以优化至数千Tokens每秒,足以应对中小规模的训练。
在开发此方案的过程中,我们完整地实现了整个Training loop,而非使用huggingface trainer等现有的训练器,这种设计能够允许我们精调训练过程中的诸多细节。
本次发布的模型即为我们基于新的训练方案的首个模型,测试结果表明,模型在中文上具备稳定的理解能力,并在一些困难任务上,尤其是复杂编码任务上,具备更为优秀的表现。
在本次训练过程中,我们插入了一部分文言文语料,模型的理解、生成文言文能力也取得了一定的进步。
Q: 用文言文写个故事,关于一头算不清房贷利率的狮子
A: 昔有狮子,名曰智者,居于山林之中。其性聪明,能言人语,闻人间有所谓“房贷”之事,乃是人为居所而向他人借金,日后以利相偿。智者心生好奇,遂下山,欲探其究竟。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-18
2024-07-11
2024-07-11
2024-07-26
2024-07-09
2024-06-11
2024-10-20
2024-07-20
2024-07-23
2024-07-12