我要投稿

国产万卡集群大模型，如何破局？

发布日期：2024-06-10 06:29:44 浏览次数： 2403 作者：芯生代

各位看官，小生三体智人，这厢有礼了，是一名新生代IT民工。

近年来，人工智能的快速发展导致算力需求呈爆发性增长，大模型首当其冲！

大模型研发需要配套算力；大模型训练需要海量算力，如训练GPT-4需要一万块英伟达A100芯片跑上11个月；大模型精调需要可控算力；大模型推理需要可靠算力，算力存在于大模型生命周期的每一环。

然而，海量算力背后有一个很现实的问题：贵！

据测算，在大模型训练的过程中，70%的开销要花在算力上；推理过程中95%的花费也是在算力上，人工智能产业算力成本居高不下。

要构建基于国产AI卡的万卡大模型训练平台，需要考虑到几个问题。

半精度与双精度的运算性能平衡问题。
在设计过程中，不仅要考虑半精度运算性能，还要考虑双精度运算能力，双精度与半精度运算性能之比为1∶50—1∶100为宜
网络平衡设计问题。
网络设计不能只针对CNN算法，还需考虑极大规模预训练模型对系统的需求。大规模预训练模型需要高带宽低延迟网络，支持数据并行，模型并行等模式。
体系结构感知的内存平衡设计。
访问内存的请求使网络拥塞，降低吞吐量，反映到应用程序上表现为访存性能显著下降；多个访问内存的请求可能访问同一存控对应的内存空间，负载不均，存控需要顺序处理访存请求
IO子系统平衡设计。
万卡系统中负载的芯片数量太大，即便是英伟达也基本会在三小时左右出现一次错误。为保证训练不被中断，大模型训练厂商通常采用间隔一段时间，如2.5小时对数据进行一次保存或转移。

目前支持大模型训练有三类系统，分别为基于英伟达GPU的系统、基于国产AI芯片的系统和基于超级计算机的系统。其中，基于英伟达公司GPU的系统硬件性能和编程生态好，但受到禁售影响，加之价格暴涨，一卡难求。而基于国产AI芯片的系统，尽管近年来国内二十余家芯片公司取得了很大的进步，但仍面临国产卡应用不足、生态系统有待改善的问题。

要改善基于国产AI芯片的系统生态，可以从十大方向努力：

第一是编程框架。应进一步降低编写人工智能模型的复杂度；利用基本算子快速构建人工智能模型，如PyTorch、TensorFlow。

第二是并行加速，为多机多卡环境提供人工智能模型并行训练的能力；支持数据并行、模型并行、流水线并行、张量并行等，如微软的DeepSpeed、英伟达Megatron-LM。

第三是通信库，要提供跨机跨卡的通信能力；可支持人工智能模型训练所需各种通信模式；可根据底层网络特点充分利用网络通信带宽，如英伟达的NCCL库、超算普遍支持的MPI通信库。

第四是算子库，需提供人工智能模型所需基本操作的高性能实现；能够尽可能覆盖典型人工智能模型所需的操作；算子库能充分发挥底层硬件的性能，如英伟达cuDNN，cnBLAS。

第五是AI编译器，要可在异构处理器上对人工智能程序生成高效的目标代码；对算子库不能提供的操作通过AI编译器自动生成高效目标代码，如XLA、TVM。不过，郑纬民也谈到，目前国内掌握AI编译器的人才较少，实现难度较大。

第六是编程语言，要提供异构处理器上编写并行程序的支持；覆盖底层硬件功能，发挥硬件性能；能够编写人工智能模型的基本算子（Operator），如英伟达的CUDA，Intel的oneAPI。

第七是调度器，需具备在大规模系统上高效调度人工智能任务的能力；同时设计高效调度算法，提高集群资源利用率，如Kubernetes（K8S）、华为ModelArts。

第八是内存分配系统，可针对人工智能应用特点提供高效的内存分配策略。

第九是容错系统，用来提供在硬件发生故障后快速恢复模型训练的能力。

第十是存储系统，需支持训练过程中高效的数据读写（检查点训练数据等）。

当前国内已经有了上述软件，但做得不够全，不够好。当务之急是先将上述软件做好，打造好生态，从而提高用户的使用意愿。

在某国产超算上进行大模型训练与推理时，使用超算调度系统申请512个节点来进行7B模型预训练，半精度和全精度训练效果可与英伟达平台完全对齐；与租用英伟达GPU相比，使用国产超算可节省6倍左右的成本。

构建国产万卡系统很难，但很有必要，未来还是要繁荣国产卡的生态系统，做好软硬件的协同设计，同时解决大模型基础设施的几大问题。

路虽远，行则将至！事虽难，做则必成！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-25

OpenAI 白送 200 美元的深度研究功能？实测后发现这个「阉割版」不如不用

2025-04-25

为什么一定要做Agent智能体？

2025-04-25

哇！首个MCPBench来了，MCP竟然不比Function Calls更有优势？ | 最新

2025-04-25

医疗大模型案例分析（一）：Google Med-PaLM

2025-04-25

vLLM+Qwen-32B+Open Web UI构建本地私有大模型

2025-04-25

AI产品经理思考MCP（3）：MCP的未来可能

2025-04-25

AI产品经理思考MCP协议（2）：标准化的必要性

2025-04-25

AI产品经理思考MCP协议（1）：预见MCP——我的“万能库”与标准化之路

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

为什么一定要做Agent智能体？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

2025-04-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部