AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


国产万卡集群大模型,如何破局?
发布日期:2024-06-10 06:29:44 浏览次数: 2124 来源:芯生代


 

各位看官,小生三体智人,这厢有礼了,是一名新生代IT民工。


近年来,人工智能的快速发展导致算力需求呈爆发性增长,大模型首当其冲!

大模型研发需要配套算力;大模型训练需要海量算力,如训练GPT-4需要一万块英伟达A100芯片跑上11个月;大模型精调需要可控算力;大模型推理需要可靠算力,算力存在于大模型生命周期的每一环。


然而,海量算力背后有一个很现实的问题:



据测算,在大模型训练的过程中,70%的开销要花在算力上;推理过程中95%的花费也是在算力上,人工智能产业算力成本居高不下。

要构建基于国产AI卡的万卡大模型训练平台,需要考虑到几个问题。
  • 半精度与双精度的运算性能平衡问题
    在设计过程中,不仅要考虑半精度运算性能,还要考虑双精度运算能力,双精度与半精度运算性能之比为1∶50—1∶100为宜
  • 网络平衡设计问题
    网络设计不能只针对CNN算法,还需考虑极大规模预训练模型对系统的需求。大规模预训练模型需要高带宽低延迟网络,支持数据并行,模型并行等模式。
  • 体系结构感知的内存平衡设计
    访问内存的请求使网络拥塞,降低吞吐量,反映到应用程序上表现为访存性能显著下降;多个访问内存的请求可能访问同一存控对应的内存空间,负载不均,存控需要顺序处理访存请求
  • IO子系统平衡设计
    万卡系统中负载的芯片数量太大,即便是英伟达也基本会在三小时左右出现一次错误。为保证训练不被中断,大模型训练厂商通常采用间隔一段时间,如2.5小时对数据进行一次保存或转移。


目前支持大模型训练有三类系统,分别为基于英伟达GPU的系统、基于国产AI芯片的系统和基于超级计算机的系统。其中,基于英伟达公司GPU的系统硬件性能和编程生态好,但受到禁售影响,加之价格暴涨,一卡难求。而基于国产AI芯片的系统,尽管近年来国内二十余家芯片公司取得了很大的进步,但仍面临国产卡应用不足、生态系统有待改善的问题



要改善基于国产AI芯片的系统生态,可以从十大方向努力:

第一是编程框架。应进一步降低编写人工智能模型的复杂度;利用基本算子快速构建人工智能模型,如PyTorch、TensorFlow。

第二是并行加速,为多机多卡环境提供人工智能模型并行训练的能力;支持数据并行、模型并行、流水线并行、张量并行等,如微软的DeepSpeed、英伟达Megatron-LM。

第三是通信库,要提供跨机跨卡的通信能力;可支持人工智能模型训练所需各种通信模式;可根据底层网络特点充分利用网络通信带宽,如英伟达的NCCL库、超算普遍支持的MPI通信库。

第四是算子库,需提供人工智能模型所需基本操作的高性能实现;能够尽可能覆盖典型人工智能模型所需的操作;算子库能充分发挥底层硬件的性能,如英伟达cuDNN,cnBLAS。

第五是AI编译器,要可在异构处理器上对人工智能程序生成高效的目标代码;对算子库不能提供的操作通过AI编译器自动生成高效目标代码,如XLA、TVM。不过,郑纬民也谈到,目前国内掌握AI编译器的人才较少,实现难度较大。

第六是编程语言,要提供异构处理器上编写并行程序的支持;覆盖底层硬件功能,发挥硬件性能;能够编写人工智能模型的基本算子(Operator),如英伟达的CUDA,Intel的oneAPI。

第七是调度器,需具备在大规模系统上高效调度人工智能任务的能力;同时设计高效调度算法,提高集群资源利用率,如Kubernetes(K8S)、华为ModelArts。

第八是内存分配系统,可针对人工智能应用特点提供高效的内存分配策略。

第九是容错系统,用来提供在硬件发生故障后快速恢复模型训练的能力。

第十是存储系统,需支持训练过程中高效的数据读写(检查点训练数据等)。

当前国内已经有了上述软件,但做得不够全,不够好。当务之急是先将上述软件做好,打造好生态,从而提高用户的使用意愿。

在某国产超算上进行大模型训练与推理时,使用超算调度系统申请512个节点来进行7B模型预训练,半精度和全精度训练效果可与英伟达平台完全对齐;与租用英伟达GPU相比,使用国产超算可节省6倍左右的成本。

构建国产万卡系统很难,但很有必要,未来还是要繁荣国产卡的生态系统,做好软硬件的协同设计,同时解决大模型基础设施的几大问题。

路虽远,行则将至!事虽难,做则必成!


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询