微信扫码
添加专属顾问
我要投稿
王勤龙,长期在蚂蚁从事 AI 基础设施的研发,主导了蚂蚁分布式训练的弹性容错与自动扩缩容项目的建设。先后参与多个开源项目,如 ElasticDL 和 DLRover,开放原子基金会 2023 活力开源贡献者,蚂蚁集团 2022 T-Star 优秀工程师。目前为蚂蚁 AI Infra 开源项目 DLRover 的架构师,专注于打造稳定、可扩展和高效的大规模分布式训练系统。
大规模 AI 分布式训练面临的挑战
随着大模型从十亿参数迈向万亿参数,训练规模的增长导致了集群成本的飙升,同时也影响了系统的稳定性。如此规模的系统带来的高额运维成本,成为了大模型训练过程中亟需解决的问题。
蚂蚁 AI 训练工程实践
训练故障自愈:将千卡分布式训练有效时间占比 >97%,降低大规模训练故障的算力成本;
训练优化 ATorch:自动根据模型和硬件选择最优的分布式训练策略。将千卡(A100)集群硬件算力利用率 >60% ;
训练优化器:相比 AdamW 提升 1.5x 的收敛加速。相关成果分别发表在ECML PKDD ’21 ,KDD’23,NeurIPS ’23;
显存与传输优化 GLake:显存+传输一体化优化和全局显存优化,将训练显存需求降低 2-10 倍。成果发布在 ASPLOS’24。
机器故障大幅增加训练成本
蚂蚁之所以会特别关注训练故障的问题,主要因为训练过程中的机器故障大幅增加了训练成本。例如,Meta 训练 OPT-175B 模型时,使用了 992 80GB A100 GPU,共 124 台 8 卡机器,按照 AWS 的 GPU 价格,每天需要耗费约 70 万。因故障导致训练周期延长 20 多天,从而增加了上千万元的算力成本。
首先,分布式训练是多个节点协同工作的,任一节点发生故障(无论是软件、硬件、网卡或 GPU 问题),整个训练流程均需暂停。
其次,训练故障发生后,排查费时费力,比如现在大家常用的手动检查方式二分法,查一次至少需要 1-2 个小时。
最后,训练是有状态的,训练重启需要从之前的训练状态里面恢复再继续,隔一段时间就要保存训练状态。而保存的过程耗时很长,而且故障回滚也会造成计算的浪费。上方的右图展示了我们上线故障自愈之前的训练耗时分布,可以看到有效训练时间大概只有 72%。
DLRover 训练故障自愈流程
自动节点检测
自动扩缩容
Flash Checkpoint
训练自愈在国产卡训练的实践
训练自愈在千卡训练的实践
开源共建&共享
技术进步始于开放合作,欢迎大家到 GitHub 上关注和参与我们的开源项目。
DLRover:
https://github.com/intelligent-machine-learning/dlrover
GLake:
https://github.com/intelligent-machine-learning/glake
微信公众号“AI Infra”,会定期发布有关 AI 基础设施的前沿技术文章,旨在分享最新的研究成果和技术洞察。同时,为了促进进一步的交流与讨论,我们还设立了钉钉群组,欢迎大家加入,在此提问、探讨相关技术问题。谢谢大家!
文章推荐
【在线回放】NVIDIA GTC 2024 大会 | 如何降低 AI 工程成本?蚂蚁从训练到推理的全栈实践
走近 AI Infra 架构师:在高速飞驰的大模型“赛车”上“换轮子”的人
千亿级模型样本生成速度30x提升-ATorch RLHF 训练加速方案在蚂蚁大模型微调的技术实践
点击「阅读全文」,在 GitHub 关注 DLRover
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-01
2025-01-01
2024-08-13
2025-02-04
2024-07-25
2024-04-25
2024-06-13
2024-09-23
2024-04-26
2024-08-21
2025-03-17
2025-03-17
2025-03-17
2025-03-17
2025-03-17
2025-03-17
2025-03-16
2025-03-16