微信扫码
添加专属顾问
我要投稿
本次发布的是我们在Llama3.1基座上的最新成果:openbuddy-llama3.1-70b-v22.3-131k。
得益于训练数据的增强及蒸馏数据的应用,和上一代70B模型相比,Llama3.1 70B在多种细分任务上均取得了更加优秀的表现,尤其是在GPQA等较为困难的任务上,Llama3.1 70B模型具备明显优势。
然而,Llama3.1 70B本身在中文理解与生成方面表现不佳:模型倾向于输出英文,并且在较难的中文问题上表现出中文理解力和知识储备的欠缺。
为了增强Llama3.1 70B模型的深度中文理解能力和中文知识储备,我们采用了对70B全量跨语言微调的方式。现有的主流框架上,70B模型的全量训练需要巨量显存,即使是开启了ZeRO-3优化,通常至少需要数十张卡的多机互联环境,且难以支持长文。
出于高效利用资源的考虑,我们近期探索了使用少量资源,进行70B模型的高效全量训练的可行性。基于Pytorch的FSDP分布式训练框架,我们开发出了新一代模型训练方案,在多个方面具备优势:
显著提升VRAM效率、8卡即可全量训练70B模型。通过集成来自开源社区的各类Triton算子实现,以及优化器的CPU Offload技术,全量训练所需的VRAM显著降低。理想情况下,单机8卡即可全量训练70B模型。
支持长文训练。为了保持模型基座的长文能力,在训练过程中使用长文数据十分重要。新一代训练方案在单机环境下支持70B模型的20K长文训练。
训练速度进一步提升。在单机环境,70B模型训练效率可以优化至数千Tokens每秒,足以应对中小规模的训练。
在开发此方案的过程中,我们完整地实现了整个Training loop,而非使用huggingface trainer等现有的训练器,这种设计能够允许我们精调训练过程中的诸多细节。
本次发布的模型即为我们基于新的训练方案的首个模型,测试结果表明,模型在中文上具备稳定的理解能力,并在一些困难任务上,尤其是复杂编码任务上,具备更为优秀的表现。
在本次训练过程中,我们插入了一部分文言文语料,模型的理解、生成文言文能力也取得了一定的进步。
Q: 用文言文写个故事,关于一头算不清房贷利率的狮子
A: 昔有狮子,名曰智者,居于山林之中。其性聪明,能言人语,闻人间有所谓“房贷”之事,乃是人为居所而向他人借金,日后以利相偿。智者心生好奇,遂下山,欲探其究竟。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-25
DeepSeek + Dify 企业级大模型私有化部署指南
2025-04-24
自主构建MCP,轻松实现云端部署!
2025-04-24
大模型微调框架LLaMA-Factory
2025-04-23
Unsloth:提升 LLM 微调效率的革命性开源工具
2025-04-23
超越 DevOps?VibeOps 引领 AI 驱动的开发革命
2025-04-23
大模型想 “专精” 特定任务?这 3 种 Addition-Based 微调法别错过
2025-04-23
重参数化微调:揭秘LoRA家族让大模型训练成本暴降的方法
2025-04-23
为什么全参数微调能让大模型从“通才”变“专才”?
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-04-23
2025-04-20
2025-04-01
2025-03-31
2025-03-20
2025-03-16
2025-03-16
2025-03-13